UsingORTGenAIQuantifyingPhi.md
February 1, 2026 · View on GitHub
Как использовать Model Builder для квантизации Phi-3.5
Model Builder теперь поддерживает квантизацию ONNX моделей для Phi-3.5 Instruct и Phi-3.5-Vision
Phi-3.5-Instruct
Квантизация INT4 с ускорением на CPU
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct
Квантизация INT4 с ускорением на CUDA
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
Phi-3.5-Vision
Phi-3.5-vision-instruct-onnx-cpu-fp32
- Настройте окружение в терминале
mkdir models
cd models
-
Скачайте microsoft/Phi-3.5-vision-instruct в папку models
https://huggingface.co/microsoft/Phi-3.5-vision-instruct -
Пожалуйста, скачайте эти файлы в папку Phi-3.5-vision-instruct
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/resolve/main/onnx/config.json
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/modeling_phi3_v.py
-
Скачайте этот файл в папку models
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py -
Перейдите в терминал
Конвертируйте ONNX с поддержкой FP32
python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu
Примечание:
-
В настоящее время Model Builder поддерживает конвертацию Phi-3.5-Instruct и Phi-3.5-Vision, но не Phi-3.5-MoE
-
Для использования квантизированной модели ONNX вы можете использовать Generative AI extensions for onnxruntime SDK
-
Необходимо учитывать ответственность в AI, поэтому после квантизации модели рекомендуется провести более тщательное тестирование результатов
-
Квантизируя модель CPU INT4, мы можем развернуть её на Edge-устройствах, что открывает лучшие сценарии применения, поэтому мы завершили работу с Phi-3.5-Instruct в INT4
Ресурсы
-
Узнайте больше о Generative AI extensions for onnxruntime https://onnxruntime.ai/docs/genai/
-
Репозиторий Generative AI extensions for onnxruntime на GitHub https://github.com/microsoft/onnxruntime-genai
Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия по обеспечению точности, просим учитывать, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обращаться к профессиональному переводу, выполненному человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.