பை குடும்பத்தை அளவிடல்

February 1, 2026 · View on GitHub

மாதிரி அளவிடல் என்பது ஒரு நெர்வியல் வலைத்தள மாதிரியில் உள்ள அளவுருக்கள் (எடை மற்றும் செயற்படுத்தல் மதிப்புகள் போன்றவை) பெரிய மதிப்புத் தொடரிலிருந்து (சாதாரணமாக ஒரு தொடர்ச்சியான மதிப்புத் தொடரிலிருந்து) சிறிய வரையறுக்கப்பட்ட மதிப்புத் தொடருக்கு மாற்றும் செயல்முறை. இந்த தொழில்நுட்பம் மாதிரியின் அளவு மற்றும் கணக்கீட்டு சிக்கல்களை குறைத்து, மொபைல் சாதனங்கள் அல்லது உள்ளமைக்கப்பட்ட அமைப்புகள் போன்ற வளக்குற்ற சூழல்களில் மாதிரியின் செயல்திறனை மேம்படுத்தும். மாதிரி அளவிடல் அளவுருக்களின் கூர்மையை குறைத்து சுருக்கத்தை அடையும், ஆனால் இது கூர்மை இழப்பையும் உருவாக்குகிறது. எனவே, அளவிடல் செயல்முறையில், மாதிரி அளவு, கணக்கீட்டு சிக்கல் மற்றும் கூர்மையை சமநிலைப்படுத்த வேண்டும். பொதுவான அளவிடல் முறைகளில் நிலையான புள்ளி அளவிடல், தாரிதிய புள்ளி அளவிடல் போன்றவை உள்ளன. குறிப்பிட்ட சூழல் மற்றும் தேவைகளை பொருத்து சரியான அளவிடல் உத்தரவைத் தேர்ந்தெடுக்க முடியும்.

நாம் ஜென்ஏஐ மாதிரியை எட்ஜ் சாதனங்களில் நிறுவுவதும், மொபைல் சாதனங்கள், AI PC/Copilot+PC மற்றும் பாரம்பரிய ஐஓடி சாதனங்கள் போன்ற பல சாதனங்கள் ஜென்ஏஐ சூழல்களில் நுழைய அனுமதிப்பதுமானது. அளவிடல் மாதிரியினால், நாம் பல் சாதனங்களுக்கு புதிதாக வித்தியாசமான சாதனங்களை அடிப்படையாக கொண்டு அதை நிறுவலாம். ஹார்ட்வேர் உற்பத்தியாளர்களால் வழங்கப்படும் மாதிரி வேகமுமான கட்டமைப்பு மற்றும் அளவிடல் மாதிருடன் சேர்ந்து, நாம் சிறந்த SLM பயன்பாட்டுச் சூழல்களை உருவாக்க முடியும்.

அளவிடல் சூழலில், நாம் பல கூர்மைகள் (INT4, INT8, FP16, FP32) வைத்துள்ளோம். பின்வரும் காணொளியில் பொதுவாக பயன்படுத்தப்படும் அளவிடல் கூர்மைகளை விளக்குகிறது

INT4

INT4 அளவிடல் என்பது மாதிரியின் எடை மற்றும் செயற்பாட்டு மதிப்புகளை 4-பிட் முழு எண்களாக அளவிடும் தீவிரமான முறையாகும். INT4 அளவிடல் பொதுவாக சிறிய பிரதிநிதித்தன்மை வரம்பின் மற்றும் குறைந்த கூர்மையின் காரணமாக அதிக கூர்மை இழப்பை ஏற்படுத்தக்கூடும். இருப்பினும், INT8 அளவிடலுடன் ஒப்பிடுகையில், INT4 அளவிடல் மாதிரியின் சேமிப்பு தேவைகளை மற்றும் கணக்கீட்டு சிக்கல்களை மேலும் குறைக்க முடியும். கவனிக்க வேண்டியது என்னவெனில், நேர்மையான பயன்பாட்டில் INT4 அளவிடல் அவ்வளவு அதிகமாக காணப்படாது, ஏனெனில் மிகவும் குறைந்த கூர்மை மாதிரி செயல்திறனை மிகுதியான குறைதலை ஏற்படுத்தக்கூடும். கூடுதலாக, எல்லா ஹார்ட்வேர் கருவிகளும் INT4 செயல்பாடுகளை ஆதரிக்காது, ஆகவே அளவிடல் முறையை தேர்ந்தெடுப்பதில் ஹார்ட்வேர் இணக்கத்தன்மை கவனிக்கப்பட வேண்டும்.

INT8

INT8 அளவிடல் என்பது மாதிரியின் எடை மற்றும் செயற்பாடுகளை ஓர் 8-பிட் முழு எண்களாக மாறும் செயல்முறை. INT8 முழு எண்கள் குறைவான மதிப்புத் தொகுப்பையும் குறைந்த கூர்மையையும் கொண்டிருக்கினாலும், இது சேமிப்பு மற்றும் கணக்கீட்டு தேவைகளை குறிப்பிடத்தக்க அளவு குறைக்கிறது. INT8 அளவிடலில், மாதிரியின் எடை மற்றும் செயற்பாடு மதிப்புகள் அளவிடல் செயல்முறையில் (தரவரம்பு மற்றும் இடையீடு சேர்க்கை போன்றவை) ஊடுருவிப் பௌத்தக் குறிப்பு தகவலைக் பாதுகாக்க முயற்சிக்கின்றன. கணிப்பொறுத்து நேரத்தில், இவ்வளவிடப்பட்ட மதிப்புகள் மீண்டும் பௌத்தக் எண்ணுகளாக மாற்றப்படுகின்றன, பின்னர் அடுத்த கட்டத்திற்கு INT8 ஆக மதிப்பிடப்படுகின்றன. இந்த பணி பல பயன்பாடுகளில் போதுமான கூர்மையை வழங்கும் மற்றும் மிக உயர்ந்த கணக்கீட்டு திறனை காக்கும்.

FP16

FP16 வடிவம், அதாவது 16-பிட் பௌத்தக் எண்கள் (float16), 32-பிட் பௌத்தக் எண்களோடு (float32) ஒப்பிடுகையில் நினைவக இடத்தை பாதி அளவு குறைக்கிறது, இது பெரிய அளவிலான ஆழ்ந்த கற்றல் பயன்பாடுகளில் குறிப்பிடத்தக்க நன்மைகளை கொண்டுள்ளது. FP16 வடிவம் ஒரே GPU நினைவக வரம்புக்குள் பெரிய மாதிரிகளை ஏற்றவோ அல்லது அதிக தரவுகளை செயலாக்கவோ அனுமதிக்கிறது. நவீன GPU ஹார்ட்வேர் FP16 செயல்பாடுகளை தொடர்ந்து ஆதரிக்கும்போது, FP16 வடிவம் கணினி வேகத்தில் மேம்பாட்டையும் ஏற்படுத்தும். ஆனால், FP16 வடிவத்துக்கு உள்ள குறைபாடு கூர்மையின் குறைவு, இது சில சமயங்களில் கணித தவிர்க்கத்தக்க நிலைத்தன்மையற்றத்தன்மையை அல்லது கூர்மை இழப்பை ஏற்படுத்தலாம்.

FP32

FP32 வடிவம் உயர்ந்த கூர்மையைக் கொடுக்கின்றது மற்றும் பரந்த மதிப்புத் தொடரை துல்லியமாக பிரதிநிதித்துவம் செய்கிறது. சிக்கலான கணித செயல்களைச் செய்யுமிடம் அல்லது கூர்மையான முடிவுகள் தேவையான சூழலில் FP32 வடிவம் முன்னிலை வகிக்கின்றது. ஆனால், அதிக கூர்மை அதிக நினைவக பயன்பாடு மற்றும் நீண்ட கணக்கீட்டு நேரத்தைக் குறிக்கிறது. பெரிய அளவிலான ஆழ்ந்த கற்றல் மாதிரிகளில், குறிப்பாக அதிக மாதிரிக் கூறுகள் மற்றும் மோதிர தரவுகளுக்குள் FP32 வடிவம் GPU நினைவக குறைபாடு அல்லது கணிப்பு வேகக் குறைவை ஏற்படுத்தும்.

மொபைல் சாதனங்கள் அல்லது IoT சாதனங்களில், நாம் Phi-3.x மாதிரிகளை INT4 ஆக மாற்றலாம், ஆனால் AI PC / Copilot PC போன்றவை INT8, FP16, FP32 போன்ற உயர்தர கூர்மைகளை பயன்படுத்த முடியும்.

தற்போது, பல ஹார்ட்வேர் உற்பத்தியாளர்கள் பல்வேறு கட்டமைப்புக்களை உருவாக்கியுள்ளதாக இருக்கிறது, உதாரணமாக Intel OpenVINO, Qualcomm QNN, Apple MLX மற்றும் Nvidia CUDA என்பவை, மாதிரி அளவிடலை இணைத்து உள்ளூர் நிறுவலை முழுமையாக்குகின்றன.

தொழில்நுட்பத்தில், அளவிடலுக்குப் பிறகு PyTorch / TensorFlow வடிவம், GGUF மற்றும் ONNX போன்ற பல வடிவங்களில் ஆதரவு உள்ளது. நான் GGUF மற்றும் ONNX இடையேயான வடிவ ஒப்புமை மற்றும் பயன்பாடு சூழல்களைச் செய்து விட்டேன். இங்கே, மாதிரி கட்டமைப்பிலிருந்து ஹார்ட்வேர் வரை நல்ல ஆதரவைக் கொண்ட ONNX அளவிடல் வடிவத்தை பரிந்துரைக்கிறேன். இந்த அத்தியாயத்தில், ஜென்ஏஐக்கான ONNX Runtime, OpenVINO மற்றும் Apple MLX மூலம் மாதிரி அளவிடலை செய்வோம் (உங்களுக்கு சிறந்த வழி இருந்தால், PR சமர்ப்பிப்பதன்மூலம் அதை வழங்கவும்)

இந்த அத்தியாயத்தில் உள்ளவை

  1. llama.cpp பயன்படுத்தி Phi-3.5 / 4 அளவிடல்

  2. onnxruntimeக்கான ஜெனரேட்டிவ் AI விரிவாக்கங்களைப் பயன்படுத்தி Phi-3.5 / 4 அளவிடல்

  3. Intel OpenVINO பயன்படுத்தி Phi-3.5 / 4 அளவிடல்

  4. Apple MLX Framework பயன்படுத்தி Phi-3.5 / 4 அளவிடல்


அறிக்கை:
இந்த 문서 Co-op Translator என்ற செயற்கை நுண்ணறிவு மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்தை எப்போதும் முயற்சிக்கிறோம் என்றாலும், தானாக செய்யப்பட்ட மொழிபெயர்ப்புகளில் பிழைகள் அல்லது அச்சுறுத்தல்களிருக்கும் احتمال உள்ளது என்பதை தயவுசெய்து கவனிக்கவும். மூல ஆவணம் அதன் தமிழில் அல்லது இயல்பு மொழியில் இருந்தே அதிகாரப்பூர்வமான மூலமாக கருதப்பட வேண்டும். முக்கியமான தகவலுக்கு, தொழில்நுட்ப மனித மொழிபெயர்ப்பாளர் மூலம் மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பின் பயன்பாட்டால் ஏற்படும் எந்தவித தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்லோம்.