UsingORTGenAIQuantifyingPhi.md

February 1, 2026 · View on GitHub

Hur man använder Model Builder för att kvantisera Phi-3.5

Model Builder stöder nu ONNX-modellkvantisering för Phi-3.5 Instruct och Phi-3.5-Vision

Phi-3.5-Instruct

CPU-accelererad konvertering till kvantiserad INT4


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct

CUDA-accelererad konvertering till kvantiserad INT4


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct

Phi-3.5-Vision

Phi-3.5-vision-instruct-onnx-cpu-fp32

  1. Sätt upp miljön i terminalen

mkdir models

cd models 

  1. Ladda ner microsoft/Phi-3.5-vision-instruct till mappen models
    https://huggingface.co/microsoft/Phi-3.5-vision-instruct

  2. Ladda ner dessa filer till din Phi-3.5-vision-instruct-mapp

  1. Ladda ner denna fil till mappen models
    https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py

  2. Gå till terminalen

    Konvertera ONNX med stöd för FP32


python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu

Notera:

  1. Model Builder stöder för närvarande konvertering av Phi-3.5-Instruct och Phi-3.5-Vision, men inte Phi-3.5-MoE

  2. För att använda ONNX:s kvantiserade modell kan du använda den via Generative AI extensions for onnxruntime SDK

  3. Vi behöver ta hänsyn till mer ansvarsfull AI, så efter modellkvantiseringen rekommenderas det att genomföra mer noggranna tester av resultaten

  4. Genom att kvantisera CPU INT4-modellen kan vi distribuera den till Edge-enheter, vilket ger bättre användningsscenarier, därför har vi slutfört Phi-3.5-Instruct runt INT4

Resurser

  1. Läs mer om Generative AI extensions for onnxruntime https://onnxruntime.ai/docs/genai/

  2. Generative AI extensions for onnxruntime GitHub Repo https://github.com/microsoft/onnxruntime-genai

Ansvarsfriskrivning:
Detta dokument har översatts med hjälp av AI-översättningstjänsten Co-op Translator. Även om vi strävar efter noggrannhet, vänligen observera att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess modersmål bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för några missförstånd eller feltolkningar som uppstår vid användning av denna översättning.