UsingORTGenAIQuantifyingPhi.md
February 1, 2026 · View on GitHub
Hur man använder Model Builder för att kvantisera Phi-3.5
Model Builder stöder nu ONNX-modellkvantisering för Phi-3.5 Instruct och Phi-3.5-Vision
Phi-3.5-Instruct
CPU-accelererad konvertering till kvantiserad INT4
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct
CUDA-accelererad konvertering till kvantiserad INT4
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
Phi-3.5-Vision
Phi-3.5-vision-instruct-onnx-cpu-fp32
- Sätt upp miljön i terminalen
mkdir models
cd models
-
Ladda ner microsoft/Phi-3.5-vision-instruct till mappen models
https://huggingface.co/microsoft/Phi-3.5-vision-instruct -
Ladda ner dessa filer till din Phi-3.5-vision-instruct-mapp
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/resolve/main/onnx/config.json
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/modeling_phi3_v.py
-
Ladda ner denna fil till mappen models
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py -
Gå till terminalen
Konvertera ONNX med stöd för FP32
python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu
Notera:
-
Model Builder stöder för närvarande konvertering av Phi-3.5-Instruct och Phi-3.5-Vision, men inte Phi-3.5-MoE
-
För att använda ONNX:s kvantiserade modell kan du använda den via Generative AI extensions for onnxruntime SDK
-
Vi behöver ta hänsyn till mer ansvarsfull AI, så efter modellkvantiseringen rekommenderas det att genomföra mer noggranna tester av resultaten
-
Genom att kvantisera CPU INT4-modellen kan vi distribuera den till Edge-enheter, vilket ger bättre användningsscenarier, därför har vi slutfört Phi-3.5-Instruct runt INT4
Resurser
-
Läs mer om Generative AI extensions for onnxruntime https://onnxruntime.ai/docs/genai/
-
Generative AI extensions for onnxruntime GitHub Repo https://github.com/microsoft/onnxruntime-genai
Ansvarsfriskrivning:
Detta dokument har översatts med hjälp av AI-översättningstjänsten Co-op Translator. Även om vi strävar efter noggrannhet, vänligen observera att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess modersmål bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för några missförstånd eller feltolkningar som uppstår vid användning av denna översättning.