UsingORTGenAIQuantifyingPhi.md

February 1, 2026 · View on GitHub

Hvordan bruke Model Builder til å kvantisere Phi-3.5

Model Builder støtter nå ONNX-modellkvantisering for Phi-3.5 Instruct og Phi-3.5-Vision

Phi-3.5-Instruct

CPU-akselerert konvertering til kvantisert INT4


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct

CUDA-akselerert konvertering til kvantisert INT4


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct

Phi-3.5-Vision

Phi-3.5-vision-instruct-onnx-cpu-fp32

  1. Sett opp miljø i terminalen

mkdir models

cd models 

  1. Last ned microsoft/Phi-3.5-vision-instruct i models-mappen
    https://huggingface.co/microsoft/Phi-3.5-vision-instruct

  2. Last ned disse filene til din Phi-3.5-vision-instruct-mappe

  1. Last ned denne filen til models-mappen
    https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py

  2. Gå til terminalen

    Konverter ONNX-støtte med FP32


python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu

Merk:

  1. Model Builder støtter for øyeblikket konvertering av Phi-3.5-Instruct og Phi-3.5-Vision, men ikke Phi-3.5-MoE

  2. For å bruke ONNX sin kvantiserte modell, kan du bruke den gjennom Generative AI extensions for onnxruntime SDK

  3. Vi må ta mer ansvarlig AI i betraktning, så etter modellkvantisering anbefales det å gjennomføre grundigere testing av resultatene

  4. Ved å kvantisere CPU INT4-modellen kan vi distribuere den til Edge-enheter, som gir bedre bruksområder, derfor har vi fullført Phi-3.5-Instruct rundt INT4

Ressurser

  1. Lær mer om Generative AI extensions for onnxruntime https://onnxruntime.ai/docs/genai/

  2. Generative AI extensions for onnxruntime GitHub Repo https://github.com/microsoft/onnxruntime-genai

Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på originalspråket skal anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.