بخش ۱: یادگیری پیشرفته SLM - مبانی و بهینه‌سازی

January 29, 2026 · View on GitHub

مدل‌های زبان کوچک (SLM) یک پیشرفت مهم در EdgeAI هستند که قابلیت‌های پردازش زبان طبیعی پیشرفته را در دستگاه‌های با منابع محدود امکان‌پذیر می‌کنند. درک نحوه استقرار، بهینه‌سازی و استفاده مؤثر از SLM‌ها برای ساخت راه‌حل‌های عملی مبتنی بر هوش مصنوعی در لبه ضروری است.

مقدمه

در این درس، مدل‌های زبان کوچک (SLM) و استراتژی‌های پیاده‌سازی پیشرفته آن‌ها را بررسی خواهیم کرد. مفاهیم بنیادی SLM‌ها، مرزهای پارامتر و طبقه‌بندی آن‌ها، تکنیک‌های بهینه‌سازی و استراتژی‌های عملی استقرار در محیط‌های محاسباتی لبه را پوشش خواهیم داد.

اهداف یادگیری

در پایان این درس، شما قادر خواهید بود:

🔢 مرزهای پارامتر و طبقه‌بندی مدل‌های زبان کوچک را درک کنید.
🛠️ تکنیک‌های کلیدی بهینه‌سازی برای استقرار SLM در دستگاه‌های لبه را شناسایی کنید.
🚀 استراتژی‌های پیشرفته کوانتیزاسیون و فشرده‌سازی برای SLM‌ها را بیاموزید.

درک مرزهای پارامتر و طبقه‌بندی SLM

مدل‌های زبان کوچک (SLM) مدل‌های هوش مصنوعی هستند که برای پردازش، درک و تولید محتوای زبان طبیعی با تعداد پارامترهای بسیار کمتر نسبت به مدل‌های بزرگ طراحی شده‌اند. در حالی که مدل‌های زبان بزرگ (LLM) شامل صدها میلیارد تا تریلیون پارامتر هستند، SLM‌ها به طور خاص برای کارایی و استقرار در لبه طراحی شده‌اند.

چارچوب طبقه‌بندی پارامتر به ما کمک می‌کند تا دسته‌های مختلف SLM‌ها و موارد استفاده مناسب آن‌ها را درک کنیم. این طبقه‌بندی برای انتخاب مدل مناسب برای سناریوهای خاص محاسبات لبه بسیار مهم است.

چارچوب طبقه‌بندی پارامتر

درک مرزهای پارامتر به انتخاب مدل‌های مناسب برای سناریوهای مختلف محاسبات لبه کمک می‌کند:

🔬 SLM‌های میکرو: ۱۰۰ میلیون - ۱.۴ میلیارد پارامتر (بسیار سبک برای دستگاه‌های موبایل)
📱 SLM‌های کوچک: ۱.۵ میلیارد - ۱۳.۹ میلیارد پارامتر (عملکرد و کارایی متعادل)
⚖️ SLM‌های متوسط: ۱۴ میلیارد - ۳۰ میلیارد پارامتر (نزدیک به قابلیت‌های LLM در حالی که کارایی حفظ می‌شود)

مرز دقیق در جامعه تحقیقاتی سیال است، اما اکثر متخصصان مدل‌هایی با کمتر از ۳۰ میلیارد پارامتر را "کوچک" در نظر می‌گیرند، با برخی منابع که آستانه را حتی پایین‌تر، در ۱۰ میلیارد پارامتر تعیین می‌کنند.

مزایای کلیدی SLM‌ها

SLM‌ها چندین مزیت بنیادی ارائه می‌دهند که آن‌ها را برای برنامه‌های محاسبات لبه ایده‌آل می‌کند:

کارایی عملیاتی: SLM‌ها زمان‌های استنتاج سریع‌تری را به دلیل پردازش پارامترهای کمتر ارائه می‌دهند، که آن‌ها را برای برنامه‌های بلادرنگ ایده‌آل می‌کند. آن‌ها به منابع محاسباتی کمتری نیاز دارند، که امکان استقرار در دستگاه‌های با منابع محدود را فراهم می‌کند، در حالی که انرژی کمتری مصرف می‌کنند و ردپای کربنی کاهش‌یافته‌ای دارند.

انعطاف‌پذیری استقرار: این مدل‌ها قابلیت‌های هوش مصنوعی روی دستگاه را بدون نیاز به اتصال اینترنت امکان‌پذیر می‌کنند، حریم خصوصی و امنیت را از طریق پردازش محلی افزایش می‌دهند، می‌توانند برای برنامه‌های خاص حوزه سفارشی شوند و برای محیط‌های مختلف محاسبات لبه مناسب هستند.

مقرون‌به‌صرفه بودن: SLM‌ها آموزش و استقرار مقرون‌به‌صرفه‌تری نسبت به LLM‌ها ارائه می‌دهند، با کاهش هزینه‌های عملیاتی و نیازهای پهنای باند کمتر برای برنامه‌های لبه.

استراتژی‌های پیشرفته کسب مدل

اکوسیستم Hugging Face

Hugging Face به عنوان مرکز اصلی برای کشف و دسترسی به SLM‌های پیشرفته عمل می‌کند. این پلتفرم منابع جامعی برای کشف و استقرار مدل ارائه می‌دهد:

ویژگی‌های کشف مدل: این پلتفرم فیلترهای پیشرفته‌ای بر اساس تعداد پارامتر، نوع مجوز و معیارهای عملکرد ارائه می‌دهد. کاربران می‌توانند به ابزارهای مقایسه مدل کنار هم، معیارهای عملکرد بلادرنگ و نتایج ارزیابی، و دموهای WebGPU برای آزمایش فوری دسترسی داشته باشند.

مجموعه‌های SLM منتخب: مدل‌های محبوب شامل Phi-4-mini-3.8B برای وظایف استدلال پیشرفته، سری Qwen3 (0.6B/1.7B/4B) برای برنامه‌های چندزبانه، Google Gemma3 برای وظایف عمومی کارآمد، و مدل‌های آزمایشی مانند BitNET برای استقرار با دقت بسیار پایین هستند. این پلتفرم همچنین مجموعه‌های مبتنی بر جامعه با مدل‌های تخصصی برای حوزه‌های خاص و انواع پیش‌آموزش و تنظیم دستورالعمل بهینه‌شده برای موارد استفاده مختلف را ارائه می‌دهد.

کاتالوگ مدل Azure AI Foundry

کاتالوگ مدل Azure AI Foundry دسترسی در سطح سازمانی به SLM‌ها با قابلیت‌های یکپارچه‌سازی پیشرفته را فراهم می‌کند:

یکپارچه‌سازی سازمانی: این کاتالوگ شامل مدل‌هایی است که مستقیماً توسط Azure با پشتیبانی در سطح سازمانی و SLA‌ها فروخته می‌شوند، از جمله Phi-4-mini-3.8B برای قابلیت‌های استدلال پیشرفته و Llama 3-8B برای استقرار تولید. همچنین مدل‌هایی مانند Qwen3 8B از مدل‌های منبع باز معتبر شخص ثالث را شامل می‌شود.

مزایای سازمانی: ابزارهای داخلی برای تنظیم دقیق، مشاهده‌پذیری و هوش مصنوعی مسئولانه با توان عملیاتی قابل تأمین در میان خانواده‌های مدل یکپارچه شده‌اند. پشتیبانی مستقیم مایکروسافت با SLA‌های سازمانی، ویژگی‌های امنیتی و انطباق یکپارچه، و گردش کارهای جامع استقرار تجربه سازمانی را بهبود می‌بخشند.

تکنیک‌های پیشرفته کوانتیزاسیون و بهینه‌سازی

چارچوب بهینه‌سازی Llama.cpp

Llama.cpp تکنیک‌های کوانتیزاسیون پیشرفته‌ای برای حداکثر کارایی در استقرار لبه ارائه می‌دهد:

روش‌های کوانتیزاسیون: این چارچوب از سطوح مختلف کوانتیزاسیون پشتیبانی می‌کند، از جمله Q4_0 (کوانتیزاسیون ۴ بیتی با کاهش اندازه عالی - ایده‌آل برای استقرار موبایل Qwen3-0.6B)، Q5_1 (کوانتیزاسیون ۵ بیتی با تعادل کیفیت و فشرده‌سازی - مناسب برای استنتاج لبه Phi-4-mini-3.8B)، و Q8_0 (کوانتیزاسیون ۸ بیتی برای کیفیت نزدیک به اصلی - توصیه‌شده برای استفاده تولیدی Google Gemma3). BitNET پیشرفته‌ترین سطح را با کوانتیزاسیون ۱ بیتی برای سناریوهای فشرده‌سازی شدید نشان می‌دهد.

مزایای پیاده‌سازی: استنتاج بهینه‌شده برای CPU با شتاب SIMD بارگذاری و اجرای مدل را بهینه می‌کند. سازگاری چندپلتفرمی در معماری‌های x86، ARM و Apple Silicon قابلیت‌های استقرار مستقل از سخت‌افزار را امکان‌پذیر می‌کند.

مثال پیاده‌سازی عملی:

# Clone and build llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release

# Convert Phi-4-mini model from Hugging Face to GGUF format
# First, download the model from Hugging Face
cd ..
python convert.py --outtype f16 --outfile phi-4-mini.gguf /path/to/downloaded/phi-4-mini/model

# Quantize the model to 4-bit precision (Q4_0)
./build/bin/quantize phi-4-mini.gguf phi-4-mini-q4_0.gguf q4_0

# Benchmark the model to check performance
./build/bin/llama-bench -m phi-4-mini-q4_0.gguf -p "Write a function to calculate the Fibonacci sequence"

# Run inference with the quantized model
./build/bin/main -m phi-4-mini-q4_0.gguf -n 512 -p "Explain quantum computing in simple terms"

مقایسه ردپای حافظه:

# Python script to analyze model size differences
import os
import matplotlib.pyplot as plt
import numpy as np

# Model sizes (in GB)
models = ['Phi-4-mini', 'Qwen3-0.6B', 'Gemma3']
original_sizes = [7.6, 1.2, 4.8]  # F16 format
q4_0_sizes = [2.0, 0.35, 1.3]     # Q4_0 format
q8_0_sizes = [3.9, 0.68, 2.5]     # Q8_0 format

# Calculate reduction percentages
q4_reduction = [(orig - q4) / orig * 100 for orig, q4 in zip(original_sizes, q4_0_sizes)]
q8_reduction = [(orig - q8) / orig * 100 for orig, q8 in zip(original_sizes, q8_0_sizes)]

print("Model Size Reduction:")
for i, model in enumerate(models):
    print(f"{model}: Q4_0 reduces size by {q4_reduction[i]:.1f}%, Q8_0 reduces size by {q8_reduction[i]:.1f}%")

# Memory usage during inference will be approximately:
# - Original F16: ~2x model size
# - Q4_0: ~1.2x model size
# - Q8_0: ~1.5x model size

مجموعه بهینه‌سازی Microsoft Olive

Microsoft Olive گردش کارهای جامع بهینه‌سازی مدل را برای محیط‌های تولید طراحی کرده است:

تکنیک‌های بهینه‌سازی: این مجموعه شامل کوانتیزاسیون پویا برای انتخاب خودکار دقت (به‌ویژه مؤثر با مدل‌های سری Qwen3)، بهینه‌سازی گراف و ترکیب اپراتور (بهینه‌شده برای معماری Google Gemma3)، بهینه‌سازی‌های خاص سخت‌افزار برای CPU، GPU و NPU (با پشتیبانی ویژه از Phi-4-mini-3.8B در دستگاه‌های ARM)، و خطوط لوله بهینه‌سازی چندمرحله‌ای است. مدل‌های BitNET به گردش کارهای کوانتیزاسیون ۱ بیتی تخصصی در چارچوب Olive نیاز دارند.

اتوماسیون گردش کار: معیارگذاری خودکار در میان انواع بهینه‌سازی کیفیت معیارها را در طول بهینه‌سازی حفظ می‌کند. یکپارچه‌سازی با چارچوب‌های محبوب ML مانند PyTorch و ONNX قابلیت‌های بهینه‌سازی استقرار در ابر و لبه را فراهم می‌کند.

مثال پیاده‌سازی عملی:

# Microsoft Olive optimization workflow for SLM
from olive.model import PyTorchModel, ONNXModel
from olive.workflows import run_workflow
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Define the workflow configuration
def create_olive_config(model_id="microsoft/phi-4-mini-instruct"):
    # Load model and create sample inputs
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16)
    
    # Create sample inputs for tracing
    sample_text = "Explain the concept of edge computing"
    inputs = tokenizer(sample_text, return_tensors="pt")
    
    # Export to ONNX first
    model_path = f"{model_id.split('/')[-1]}.onnx"
    torch.onnx.export(
        model,
        (inputs["input_ids"],),
        model_path,
        input_names=["input_ids"],
        output_names=["logits"],
        dynamic_axes={
            "input_ids": {0: "batch", 1: "sequence"},
            "logits": {0: "batch", 1: "sequence"}
        },
        opset_version=15
    )
    
    # Create Olive optimization config
    config = {
        "input_model": ONNXModel(model_path),
        "systems": {
            "local_system": {
                "type": "LocalSystem"
            }
        },
        "passes": {
            # Graph optimization pass
            "graph_optimization": {
                "type": "OrtTransformersOptimization",
                "config": {
                    "optimization_options": {
                        "enable_gelu": True,
                        "enable_layer_norm": True,
                        "enable_attention": True,
                        "use_multi_head_attention": True
                    }
                }
            },
            # Quantization pass for INT8
            "quantization": {
                "type": "OrtQuantization",
                "config": {
                    "quant_mode": "static",
                    "activation_type": "int8",
                    "weight_type": "int8",
                    "op_types_to_quantize": ["MatMul", "Add", "Conv"]
                },
                "disable_search": True
            }
        },
        "engine": {
            "log_severity_level": 0,
            "cache_dir": "./cache"
        }
    }
    
    return config

# Run the optimization workflow
config = create_olive_config()
result = run_workflow(config)

# Save the optimized model
optimized_model = result.optimized_model
optimized_model.save("./optimized_phi4_mini")

# Benchmark performance comparison
print(f"Original model size: {os.path.getsize(model_path) / (1024 * 1024):.2f} MB")
print(f"Optimized model size: {os.path.getsize('./optimized_phi4_mini/model.onnx') / (1024 * 1024):.2f} MB")

چارچوب Apple MLX

Apple MLX بهینه‌سازی بومی را به طور خاص برای دستگاه‌های Apple Silicon طراحی کرده است:

بهینه‌سازی Apple Silicon: این چارچوب از معماری حافظه یکپارچه با یکپارچه‌سازی Metal Performance Shaders، استنتاج دقت مختلط خودکار (به‌ویژه مؤثر با Google Gemma3)، و استفاده بهینه از پهنای باند حافظه استفاده می‌کند. Phi-4-mini-3.8B عملکرد استثنایی را در تراشه‌های سری M نشان می‌دهد، در حالی که Qwen3-1.7B تعادل مطلوبی را برای استقرار MacBook Air ارائه می‌دهد.

ویژگی‌های توسعه: پشتیبانی از API‌های Python و Swift با عملیات آرایه سازگار با NumPy، قابلیت‌های تفکیک خودکار، و یکپارچه‌سازی بی‌دردسر با ابزارهای توسعه Apple محیط توسعه جامعی را فراهم می‌کند.

مثال پیاده‌سازی عملی:

# Apple MLX optimization for Phi-4-mini model
import mlx.core as mx
import mlx.nn as nn
from transformers import AutoTokenizer, AutoModelForCausalLM
from mlx_lm import load, generate

# Install the required packages
# pip install mlx transformers mlx-lm

# Load the Phi-4-mini model with MLX optimization
model_path = "microsoft/phi-4-mini-instruct"
model, tokenizer = load(model_path)

# Convert to float16 for better performance on Apple Silicon
model.convert_to_float16()

# Sample inference
prompt = "Write a function to find prime numbers in Python"
results = generate(
    model, 
    tokenizer,
    prompt=prompt,
    max_tokens=512,
    temperature=0.7,
    top_p=0.9,
)

print(results[0]["generation"])

# Benchmark the model
import time

def benchmark_inference(model, tokenizer, prompt, runs=10):
    # Warmup
    generate(model, tokenizer, prompt=prompt, max_tokens=128)
    
    # Benchmark
    start_time = time.time()
    for _ in range(runs):
        generate(model, tokenizer, prompt=prompt, max_tokens=128)
    end_time = time.time()
    
    avg_time = (end_time - start_time) / runs
    return avg_time

avg_inference_time = benchmark_inference(model, tokenizer, "Explain quantum computing")
print(f"Average inference time: {avg_inference_time:.4f} seconds")

# Save the optimized model for later use
model.save_weights("phi4_mini_optimized_mlx.npz")

استراتژی‌های استقرار تولید و استنتاج

Ollama: استقرار محلی ساده‌شده

Ollama استقرار SLM را با ویژگی‌های آماده سازمانی برای محیط‌های محلی و لبه ساده می‌کند:

قابلیت‌های استقرار: نصب و اجرای مدل با یک دستور با کشیدن و ذخیره خودکار مدل. پشتیبانی از Phi-4-mini-3.8B، کل سری Qwen3 (0.6B/1.7B/4B)، و Google Gemma3 با REST API برای یکپارچه‌سازی برنامه و قابلیت‌های مدیریت و تغییر مدل چندگانه. مدل‌های BitNET به پیکربندی‌های ساخت آزمایشی برای پشتیبانی کوانتیزاسیون ۱ بیتی نیاز دارند.

ویژگی‌های پیشرفته: پشتیبانی از تنظیم دقیق مدل سفارشی، تولید Dockerfile برای استقرار کانتینری، شتاب GPU با تشخیص خودکار، و گزینه‌های کوانتیزاسیون و بهینه‌سازی مدل انعطاف‌پذیری استقرار جامعی را ارائه می‌دهند.

VLLM: استنتاج با عملکرد بالا

VLLM بهینه‌سازی استنتاج در سطح تولید را برای سناریوهای با توان بالا ارائه می‌دهد:

بهینه‌سازی‌های عملکرد: PagedAttention برای محاسبه توجه حافظه‌کارآمد (به‌ویژه مفید برای معماری ترانسفورمر Phi-4-mini-3.8B)، دسته‌بندی پویا برای بهینه‌سازی توان (بهینه‌شده برای پردازش موازی سری Qwen3)، موازی‌سازی تنسور برای مقیاس‌گذاری چند GPU (پشتیبانی از Google Gemma3)، و رمزگشایی حدسی برای کاهش تأخیر. مدل‌های BitNET به هسته‌های استنتاج تخصصی برای عملیات ۱ بیتی نیاز دارند.

یکپارچه‌سازی سازمانی: نقاط پایانی API سازگار با OpenAI، پشتیبانی از استقرار Kubernetes، یکپارچه‌سازی نظارت و مشاهده‌پذیری، و قابلیت‌های مقیاس‌گذاری خودکار راه‌حل‌های استقرار در سطح سازمانی را ارائه می‌دهند.

Foundry Local: راه‌حل لبه مایکروسافت

Foundry Local قابلیت‌های جامع استقرار لبه را برای محیط‌های سازمانی فراهم می‌کند:

ویژگی‌های محاسبات لبه: طراحی معماری آفلاین اول با بهینه‌سازی محدودیت منابع، مدیریت رجیستری مدل محلی، و قابلیت‌های همگام‌سازی لبه به ابر استقرار لبه قابل‌اعتماد را تضمین می‌کند.

امنیت و انطباق: پردازش داده‌های محلی برای حفظ حریم خصوصی، کنترل‌های امنیتی سازمانی، گزارش‌گیری انطباق و ثبت حسابرسی، و مدیریت دسترسی مبتنی بر نقش امنیت جامع را برای استقرارهای لبه فراهم می‌کند.

بهترین شیوه‌ها برای پیاده‌سازی SLM

دستورالعمل‌های انتخاب مدل

هنگام انتخاب SLM‌ها برای استقرار لبه، عوامل زیر را در نظر بگیرید:

ملاحظات تعداد پارامتر: SLM‌های میکرو مانند Qwen3-0.6B را برای برنامه‌های موبایل بسیار سبک انتخاب کنید، SLM‌های کوچک مانند Qwen3-1.7B یا Google Gemma3 را برای سناریوهای عملکرد متعادل انتخاب کنید، و SLM‌های متوسط مانند Phi-4-mini-3.8B یا Qwen3-4B را زمانی که به قابلیت‌های LLM نزدیک می‌شوید در حالی که کارایی حفظ می‌شود انتخاب کنید. مدل‌های BitNET فشرده‌سازی فوق‌العاده آزمایشی را برای برنامه‌های تحقیقاتی خاص ارائه می‌دهند.

هم‌راستایی با موارد استفاده: قابلیت‌های مدل را با الزامات برنامه خاص مطابقت دهید، عواملی مانند کیفیت پاسخ، سرعت استنتاج، محدودیت‌های حافظه، و الزامات عملیات آفلاین را در نظر بگیرید.

انتخاب استراتژی بهینه‌سازی

رویکرد کوانتیزاسیون: سطوح کوانتیزاسیون مناسب را بر اساس الزامات کیفیت و محدودیت‌های سخت‌افزاری انتخاب کنید. Q4_0 را برای حداکثر فشرده‌سازی انتخاب کنید (ایده‌آل برای استقرار موبایل Qwen3-0.6B)، Q5_1 را برای تعادل کیفیت-فشرده‌سازی انتخاب کنید (مناسب برای Phi-4-mini-3.8B و Google Gemma3)، و Q8_0 را برای حفظ کیفیت نزدیک به اصلی انتخاب کنید (توصیه‌شده برای محیط‌های تولیدی Qwen3-4B). کوانتیزاسیون ۱ بیتی BitNET مرز فشرده‌سازی شدید را برای برنامه‌های تخصصی نشان می‌دهد.

انتخاب چارچوب: چارچوب‌های بهینه‌سازی را بر اساس سخت‌افزار هدف و الزامات استقرار انتخاب کنید. از Llama.cpp برای استقرار بهینه‌شده برای CPU، Microsoft Olive برای گردش کارهای جامع بهینه‌سازی، و Apple MLX برای دستگاه‌های Apple Silicon استفاده کنید.

مثال‌های عملی مدل و موارد استفاده

سناریوهای استقرار واقعی

برنامه‌های موبایل: Qwen3-0.6B در برنامه‌های چت‌بات گوشی‌های هوشمند با ردپای حافظه حداقلی عالی عمل می‌کند، در حالی که Google Gemma3 عملکرد متعادل را برای ابزارهای آموزشی مبتنی بر تبلت ارائه می‌دهد. Phi-4-mini-3.8B قابلیت‌های استدلال برتر را برای برنامه‌های بهره‌وری موبایل ارائه می‌دهد.

محاسبات دسکتاپ و لبه: Qwen3-1.7B عملکرد بهینه‌ای را برای برنامه‌های دستیار دسکتاپ ارائه می‌دهد، Phi-4-mini-3.8B قابلیت‌های پیشرفته تولید کد را برای ابزارهای توسعه‌دهنده فراهم می‌کند، و Qwen3-4B تجزیه و تحلیل اسناد پیچیده را در محیط‌های ایستگاه کاری امکان‌پذیر می‌کند.

تحقیق و آزمایش: مدل‌های BitNET امکان بررسی استنتاج با دقت بسیار پایین را برای تحقیقات دانشگاهی و برنامه‌های اثبات مفهوم که به محدودیت‌های شدید منابع نیاز دارند فراهم می‌کنند.

معیارهای عملکرد و مقایسه‌ها

سرعت استنتاج: Qwen3-0.6B سریع‌ترین زمان‌های استنتاج را در CPU‌های موبایل به دست می‌آورد، Google Gemma3 نسبت سرعت-کیفیت متعادلی را برای برنامه‌های عمومی ارائه می‌دهد، Phi-4-mini-3.8B سرعت استدلال برتر را برای وظایف پیچیده ارائه می‌دهد، و BitNET حداکثر توان نظری را با سخت‌افزار تخصصی ارائه می‌دهد.

نیازهای حافظه: ردپای حافظه مدل‌ها از Qwen3-0.6B (کمتر از ۱ گیگابایت کوانتیزه‌شده) تا Phi-4-mini-3.8B (تقریباً ۳-۴ گیگابایت کوانتیزه‌شده) متغیر است، با BitNET که در پیکربندی‌های آزمایشی ردپای زیر ۵۰۰ مگابایت را به دست می‌آورد.

چالش‌ها و ملاحظات

مصالحه‌های عملکرد

استقرار SLM شامل بررسی دقیق مصالحه‌ها بین اندازه مدل، سرعت استنتاج، و کیفیت خروجی است. به عنوان مثال، در حالی که Qwen3-0.6B سرعت و کارایی استثنایی ارائه می‌دهد، Phi-4-mini-3.8B قابلیت‌های استدلال برتر را با هزینه افزایش نیازهای منابع ارائه می‌دهد. Google Gemma3 تعادل مناسبی را برای اکثر برنامه‌های عمومی ایجاد می‌کند.

سازگاری سخت‌افزار

دستگاه‌های لبه مختلف قابلیت‌ها و محدودیت‌های متفاوتی دارند. Qwen3-0.6B به طور کارآمد بر روی پردازنده‌های ARM پایه اجرا می‌شود، Google Gemma3 به منابع محاسباتی متوسط نیاز دارد، و Phi-4-mini-3.8B از سخت‌افزار لبه پیشرفته‌تر بهره می‌برد. مدل‌های BitNET به سخت‌افزار یا پیاده‌سازی

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.