UsingORTGenAIQuantifyingPhi.md
February 1, 2026 · View on GitHub
Cara menggunakan Model Builder untuk mengkuantisasi Phi-3.5
Model Builder sekarang mendukung kuantisasi model ONNX untuk Phi-3.5 Instruct dan Phi-3.5-Vision
Phi-3.5-Instruct
Konversi kuantisasi INT4 dengan akselerasi CPU
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct
Konversi kuantisasi INT4 dengan akselerasi CUDA
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
Phi-3.5-Vision
Phi-3.5-vision-instruct-onnx-cpu-fp32
- Atur lingkungan di terminal
mkdir models
cd models
-
Unduh microsoft/Phi-3.5-vision-instruct ke folder models
https://huggingface.co/microsoft/Phi-3.5-vision-instruct -
Silakan unduh file-file ini ke folder Phi-3.5-vision-instruct Anda
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/resolve/main/onnx/config.json
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/modeling_phi3_v.py
-
Unduh file ini ke folder models
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py -
Buka terminal
Konversi dukungan ONNX dengan FP32
python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu
Catatan:
-
Model Builder saat ini mendukung konversi Phi-3.5-Instruct dan Phi-3.5-Vision, tetapi belum untuk Phi-3.5-MoE
-
Untuk menggunakan model kuantisasi ONNX, Anda dapat menggunakannya melalui SDK Generative AI extensions for onnxruntime
-
Kita perlu mempertimbangkan AI yang lebih bertanggung jawab, jadi setelah konversi kuantisasi model, disarankan melakukan pengujian hasil yang lebih efektif
-
Dengan mengkuantisasi model CPU INT4, kita dapat menerapkannya ke Edge Device yang memiliki skenario aplikasi lebih baik, sehingga kami telah menyelesaikan Phi-3.5-Instruct di sekitar INT4
Sumber Daya
-
Pelajari lebih lanjut tentang Generative AI extensions for onnxruntime https://onnxruntime.ai/docs/genai/
-
Repositori GitHub Generative AI extensions for onnxruntime https://github.com/microsoft/onnxruntime-genai
Penafian:
Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI Co-op Translator. Meskipun kami berupaya untuk akurasi, harap diketahui bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang sahih. Untuk informasi penting, disarankan menggunakan terjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.