Phi കുടുംബത്തെ Generative AI extensions for onnxruntime ഉപയോഗിച്ച് Quantizing ചെയ്യൽ
February 1, 2026 · View on GitHub
Generative AI extensions for onnxruntime എന്താണെന്ന്
ഈ എക്സ്ടൻഷൻങ്ങൾ ONNX Runtime (https://github.com/microsoft/onnxruntime-genai) ഉപയോഗിച്ച് ജനറേറ്റീവ് AI ഓടിക്കാൻ സഹായിക്കുന്നു. ഇത് ONNX മോഡलोंുമായി ജനറേറ്റീവ് AI ലൂപ്പ് പ്രദാനം ചെയ്യുന്നു, ONNX Runtime ഉപയോഗിച്ചുള്ള ഇൻഫറൻസ്, ലോജിറ്റ്സ് പ്രോസസ്സിംഗ്, sørch and sampling (മാറ്റമില്ല), and KV cache മാനേജ്മെന്റ് ഉൾപ്പെടെ. ഡവലപ്പർമാർക്ക് ഉയർന്ന നിലവാരത്തിലുള്ള generate() മെതോഡ് വിളിക്കാനോ, മോഡലിന്റെ ഓരോ ഇറ്ററേഷനും ലൂപിൽ റൺ ചെയ്ത് ഒരു ടോക്കൺ ഓരോ തവണ ജനറേറ്റ് ചെയ്യാനും, ആവശ്യമായ പക്ഷം ലൂപിനുള്ളിലാണ് ജനറേഷൻ പാരാമീറ്ററുകൾ അപ്ഡേറ്റ് ചെയ്യാനും സാധിക്കും. ഇത് greedy/beam search നും TopP, TopK സാംപ്ലിങ്ങിനും പിന്തുണ നൽകുന്നു, ടോക്കൺ സീക്വൻസുകൾ ജനറേറ്റ് ചെയ്യുന്നതിനും repetition penalties പോലെയുള്ള നിര്മ്മിത ലോജിറ്റ്സ് പ്രോസസ്സിംഗ് ഉൾക്കൊള്ളുന്നതിനും. നിങ്ങൾക്ക് എളുപ്പത്തിൽ കസ്റ്റം സ്കോറിംഗ് ചേർക്കാനും സാധിക്കും.
അപ്ലിക്കേഷൻ നിലയിൽ, C++/ C# / Python ഉപയോഗിച്ച് Generative AI extensions for onnxruntime ഉപയോഗിച്ച് അപ്ലിക്കേഷനുകൾ നിർമ്മിക്കാൻ കഴിയും. മോഡൽ നിലയിൽ, ഫൈൻ‑ട്യൂൺ ചെയ്യപ്പെട്ട മോഡലുകൾ മർജ് ചെയ്യാനും ബന്ധപ്പെട്ട ക്വാണ്ടിറ്റേറ്റീവ് ഡിപ്പ്ലോയ്മെന്റ് പ്രവർത്തനങ്ങൾ നടത്താനുമാണ് ഇത് ഉപയോഗിക്കാവുന്നത്.
Generative AI extensions for onnxruntime ഉപയോഗിച്ച് Phi-3.5 ക്വാണ്ടൈസിംഗ്
ഒപ്പം പിന്തുണയുള്ള മോഡലുകൾ
Generative AI extensions for onnxruntime Microsoft Phi, Google Gemma, Mistral, Meta LLaMA എന്നിവയുടെ ക്വാന്തൈസേഷൻ കണ്ട്വേഴ്ഷനുകൾക്ക് പിന്തുണ നൽകുന്നു。
Generative AI extensions for onnxruntime ഇൽ മോഡൽ ബിൽഡർ
മോഡൽ ബിൽഡർ ONNX Runtime generate() API ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്ന ഓപ്റ്റിമൈസ്ഡ്, ക്വാണ്ടൈസ്ഡ് ONNX മോഡലുകൾ സൃഷ്ടിക്കാൻ വളരെ വേഗം മുന്നോട്ട് നയിക്കുന്നു.
Model Builder വഴിയാണ് നിങ്ങൾ മോഡൽ INT4, INT8, FP16, FP32 എന്നിവയിലേക്ക് ക്വാണ്ടൈസുചെയ്യാനും CPU, CUDA, DirectML, Mobile തുടങ്ങിയ വിവിധ ഹാർഡ്വെയർ ആക്സിലറേഷൻ രീതികൾ സംയോജിപ്പിക്കാനുമുള്ള കഴിവ് ലഭിക്കുന്നത്.
Model Builder ഉപയോഗിക്കാൻ നിങ്ങൾക്ക് ഇൻസ്റ്റോൾ ചെയ്യേണ്ടതുണ്ട്
pip install torch transformers onnx onnxruntime
pip install --pre onnxruntime-genai
ഇൻസ്റ്റാൾ കഴിഞ്ഞാൽ, മോഡൽ ഫോർമാറ്റ് ಮತ್ತು ക്വാണ്ടൈസേഷൻ تبدیلی നടത്തുന്നതിന് ടർമിനലിൽ നിന്നു Model Builder സ്ക്രിപ്റ്റ് പ്രവർത്തിപ്പിക്കാം.
python3 -m onnxruntime_genai.models.builder -m model_name -o path_to_output_folder -p precision -e execution_provider -c cache_dir_to_save_hf_files
സംബന്ധിച്ച പാരാമീറ്ററുകൾ മനസിലാക്കുക
-
model_name ഇത് Hugging Face上的 മോഡലാണ്, ഉദാഹരണത്തിന് microsoft/Phi-3.5-mini-instruct, microsoft/Phi-3.5-vision-instruct തുടങ്ങിയവ. അതുപോലെ നിങ്ങൾ മോഡൽ സേവ് ചെയ്തിരിക്കുന്ന പാതയേയും ഇത് ആയിരിക്കാൻ পারে
-
path_to_output_folder ക്വാണ്ടൈസ്ഡ് മാറ്റം സംരക്ഷിക്കേണ്ട പാത
-
execution_provider CPU, CUDA, DirectML പോലുള്ള വ്യത്യസ്ത ഹാർഡ്വെയർ ആക്സിലറേഷൻ പിന്തുണ
-
cache_dir_to_save_hf_files നാം Hugging Face മുതൽ മോഡൽ ഡൗൺലോഡ് ചെയ്ത് ലോക്കലായി കാഷെ ചെയ്യുന്നതിന് ഉപയോഗിക്കുന്ന ഡയറക്ടറി
Note:
- Generative AI extensions for onnxruntime ഇപ്പോൾ പ്രിവ്യൂ ഘട്ടത്തിലാണ് എങ്കിലും, ഇവ Microsoft Olive-ലിൽ ഉൾക്കൊള്ളിച്ചിട്ടുണ്ട്, കൂടാതെ Generative AI extensions for onnxruntime Model Builder ഫങ്ഷനുകൾ Microsoft Olive വഴി വിളിക്കാനും കഴിയും.
Phi-3.5 ക്വാന്തൈസിംഗ് ചെയ്യുന്നതിന് Model Builder എങ്ങനെ ഉപയോഗിക്കാം
Model Builder ഇപ്പോൾ Phi-3.5 Instruct and Phi-3.5-Vision നുള്ള ONNX മോഡൽ ക്വാന്തൈസേഷൻ പിന്തുണിക്കുന്നു
Phi-3.5-Instruct
CPU ആക്സിലറേറ്റഡ് Quantized INT 4 കൺവേഴ്ഷൻ
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct
CUDA ആക്സിലറേറ്റഡ് Quantized INT 4 കൺവേഴ്ഷൻ
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
Phi-3.5-Vision
Phi-3.5-vision-instruct-onnx-cpu-fp32
- ടർമിനലിൽ പരിസ്ഥിതി സജ്ജമാക്കുക
mkdir models
cd models
-
models ഫോൾഡറിൽ microsoft/Phi-3.5-vision-instruct ഡൗൺലോഡ് ചെയ്യുക https://huggingface.co/microsoft/Phi-3.5-vision-instruct
-
ദയവായി ഈ ഫയലുകൾ നിങ്ങളുടെ Phi-3.5-vision-instruct ഫോൾഡറിൽ ഡൗൺലോഡ് ചെയ്യുക
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/resolve/main/onnx/config.json
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/modeling_phi3_v.py
-
ഈ ഫയൽ models ഫോൾഡറിലേക്ക് ഡൗൺലോഡ് ചെയ്യുക https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py
-
ടെർമിനലിലേക്ക് പോകുക
ONNX പിന്തുണ FP32 കൺവേർട്ട് ചെയ്യുക
python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu
നോട്ടുകൾ:
-
Model Builder ഇപ്പോൾ Phi-3.5-Instruct మరియు Phi-3.5-Vision ന്റെ കൺവർഷനുകൾ പിന്തുണച്ചുകൊണ്ടേയുണ്ട്, Phi-3.5-MoE പിന്തുണയില്ല
-
ONNX ന്റെ ക്വാന്തൈസ്ഡ് മോഡൽ ഉപയോഗിക്കാൻ Generative AI extensions for onnxruntime SDK വഴി ഇത് ഉപയോഗിക്കാം
-
മറുപടി ഉത്തരവാദിത്വപരമായി പരിഗണിക്കാൻ കൂടുതൽ ശ്രദ്ധ വേണം, അതിനാൽ മോഡൽ ക്വാന്തൈസേഷൻ转换 കഴിഞ്ഞശേഷം കൂടുതൽ ഫലപരിശോധന നടത്താൻ ശിപാർശ ചെയ്യുന്നു
-
CPU INT4 മോഡൽ ക്വാന്തൈസ് ചെയ്ത് ഡിപ്പ്ലോയ്മെന്റ് എഡ്ജ് ഡിവൈസുകളിൽ നടത്താവുന്നതാണ്, ഇത് മികച്ച ഉപയോഗ സാഹചര്യമൊരുക്കുന്നു; അതിനാൽ ഞങ്ങൾ Phi-3.5-Instruct നുള്ള INT 4 ചുറ്റുപാട് പൂർത്തീകരിച്ചു
സമ്പദങ്ങൾ
-
Generative AI extensions for onnxruntime കുറിച്ച് കൂടുതൽ അറിയാൻ https://onnxruntime.ai/docs/genai/
-
Generative AI extensions for onnxruntime GitHub Repo https://github.com/microsoft/onnxruntime-genai
അസ്വീകാര്യതാ കുറിപ്പ്: ഈ രേഖ AI വിവർത്തന സേവനമായ Co‑op Translator (https://github.com/Azure/co-op-translator) ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. ഞങ്ങൾ ശരിയായ വിവർത്തനത്തിനായി ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, ഓട്ടോമേറ്റഡ് വിവർത്തനങ്ങളിൽ പിശകുകളോ തെറ്റായ വിവർത്തനങ്ങളോ ഉണ്ടായേക്കാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. മൂലഭാഷയിലെ അസൽ രേഖ പ്രാമാണികമായ ഉറവിടമായാണ് കണക്കാക്കേണ്ടത്. നിർണ്ണായകമായ വിവരങ്ങൾക്ക് പ്രൊഫഷണൽ മനുഷ്യവിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽനിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കും തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കും ഞങ്ങൾക്ക് ഉത്തരവാദിത്വം ബാധിക്കില്ല.