UsingORTGenAIQuantifyingPhi.md

February 1, 2026 · View on GitHub

Как использовать Model Builder для квантизации Phi-3.5

Model Builder теперь поддерживает квантизацию ONNX моделей для Phi-3.5 Instruct и Phi-3.5-Vision

Phi-3.5-Instruct

Квантизация INT4 с ускорением на CPU


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct

Квантизация INT4 с ускорением на CUDA


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct


python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct

Phi-3.5-Vision

Phi-3.5-vision-instruct-onnx-cpu-fp32

  1. Настройте окружение в терминале

mkdir models

cd models 

  1. Скачайте microsoft/Phi-3.5-vision-instruct в папку models
    https://huggingface.co/microsoft/Phi-3.5-vision-instruct

  2. Пожалуйста, скачайте эти файлы в папку Phi-3.5-vision-instruct

  1. Скачайте этот файл в папку models
    https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py

  2. Перейдите в терминал

    Конвертируйте ONNX с поддержкой FP32


python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu

Примечание:

  1. В настоящее время Model Builder поддерживает конвертацию Phi-3.5-Instruct и Phi-3.5-Vision, но не Phi-3.5-MoE

  2. Для использования квантизированной модели ONNX вы можете использовать Generative AI extensions for onnxruntime SDK

  3. Необходимо учитывать ответственность в AI, поэтому после квантизации модели рекомендуется провести более тщательное тестирование результатов

  4. Квантизируя модель CPU INT4, мы можем развернуть её на Edge-устройствах, что открывает лучшие сценарии применения, поэтому мы завершили работу с Phi-3.5-Instruct в INT4

Ресурсы

  1. Узнайте больше о Generative AI extensions for onnxruntime https://onnxruntime.ai/docs/genai/

  2. Репозиторий Generative AI extensions for onnxruntime на GitHub https://github.com/microsoft/onnxruntime-genai

Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия по обеспечению точности, просим учитывать, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обращаться к профессиональному переводу, выполненному человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.