فناوریهای کلیدی ذکر شده شامل
February 1, 2026 · View on GitHub
- DirectML - یک API سطح پایین برای یادگیری ماشین با شتاب سختافزاری که بر پایه DirectX 12 ساخته شده است.
- CUDA - یک پلتفرم محاسبات موازی و مدل رابط برنامهنویسی کاربردی (API) توسعه یافته توسط Nvidia که امکان پردازش عمومی روی واحدهای پردازش گرافیکی (GPU) را فراهم میکند.
- ONNX (Open Neural Network Exchange) - یک فرمت باز طراحی شده برای نمایش مدلهای یادگیری ماشین که قابلیت تعامل بین فریمورکهای مختلف ML را فراهم میکند.
- GGUF (Generic Graph Update Format) - فرمت مورد استفاده برای نمایش و بهروزرسانی مدلهای یادگیری ماشین، بهویژه برای مدلهای زبانی کوچکتر که میتوانند با کوانتیزاسیون ۴-۸ بیت بهخوبی روی CPU اجرا شوند.
DirectML
DirectML یک API سطح پایین است که یادگیری ماشین با شتاب سختافزاری را ممکن میسازد. این API بر پایه DirectX 12 ساخته شده تا از شتاب GPU بهره ببرد و مستقل از سازنده است، یعنی برای کار روی GPUهای مختلف نیازی به تغییر کد ندارد. عمدتاً برای آموزش مدلها و انجام استنتاج روی GPUها استفاده میشود.
در مورد پشتیبانی سختافزاری، DirectML برای کار با طیف گستردهای از GPUها طراحی شده است، از جمله GPUهای مجتمع و مجزا AMD، GPUهای مجتمع اینتل و GPUهای مجزای NVIDIA. این API بخشی از پلتفرم هوش مصنوعی ویندوز است و روی ویندوز ۱۰ و ۱۱ پشتیبانی میشود، که امکان آموزش و استنتاج مدلها را روی هر دستگاه ویندوزی فراهم میکند.
بهروزرسانیها و فرصتهایی مرتبط با DirectML وجود داشته است، مانند پشتیبانی از تا ۱۵۰ اپراتور ONNX و استفاده توسط هر دو ONNX runtime و WinML. این API توسط تولیدکنندگان سختافزار اصلی (IHVs) پشتیبانی میشود که هر کدام متاکماندهای مختلفی را پیادهسازی کردهاند.
CUDA
CUDA که مخفف Compute Unified Device Architecture است، یک پلتفرم محاسبات موازی و مدل API است که توسط Nvidia ایجاد شده است. این امکان را به توسعهدهندگان نرمافزار میدهد تا از GPUهای مجهز به CUDA برای پردازشهای عمومی استفاده کنند — رویکردی که GPGPU (محاسبات عمومی روی واحدهای پردازش گرافیکی) نامیده میشود. CUDA یکی از عوامل کلیدی شتاب GPUهای Nvidia است و در زمینههای مختلفی از جمله یادگیری ماشین، محاسبات علمی و پردازش ویدئو بهطور گسترده استفاده میشود.
پشتیبانی سختافزاری CUDA مختص GPUهای Nvidia است، زیرا این فناوری اختصاصی توسط Nvidia توسعه یافته است. هر معماری از نسخههای خاصی از ابزارهای CUDA پشتیبانی میکند که کتابخانهها و ابزارهای لازم برای توسعهدهندگان جهت ساخت و اجرای برنامههای CUDA را فراهم میآورد.
ONNX
ONNX (Open Neural Network Exchange) یک فرمت باز است که برای نمایش مدلهای یادگیری ماشین طراحی شده است. این فرمت تعریفی از مدل گراف محاسباتی قابل توسعه، به همراه تعاریف اپراتورهای داخلی و انواع دادههای استاندارد ارائه میدهد. ONNX به توسعهدهندگان اجازه میدهد مدلها را بین فریمورکهای مختلف ML جابجا کنند، که باعث تعاملپذیری و آسانتر شدن ساخت و استقرار برنامههای هوش مصنوعی میشود.
Phi3 mini میتواند با ONNX Runtime روی CPU و GPU در دستگاههای مختلف، از جمله پلتفرمهای سرور، ویندوز، لینوکس و مک دسکتاپ و CPUهای موبایل اجرا شود. پیکربندیهای بهینهای که اضافه کردهایم عبارتند از:
- مدلهای ONNX برای int4 DML: کوانتیزه شده به int4 از طریق AWQ
- مدل ONNX برای fp16 CUDA
- مدل ONNX برای int4 CUDA: کوانتیزه شده به int4 از طریق RTN
- مدل ONNX برای int4 CPU و موبایل: کوانتیزه شده به int4 از طریق RTN
Llama.cpp
Llama.cpp یک کتابخانه نرمافزاری متنباز نوشته شده به زبان C++ است. این کتابخانه استنتاج را روی مدلهای بزرگ زبانی مختلف (LLMs)، از جمله Llama، انجام میدهد. این پروژه همراه با کتابخانه ggml (یک کتابخانه تنسور عمومی) توسعه یافته است و هدف آن ارائه استنتاج سریعتر و مصرف حافظه کمتر نسبت به پیادهسازی اصلی پایتون است. این کتابخانه از بهینهسازی سختافزاری، کوانتیزاسیون پشتیبانی میکند و API ساده و مثالهایی ارائه میدهد. اگر به استنتاج کارآمد مدلهای بزرگ زبانی علاقهمند هستید، llama.cpp ارزش بررسی دارد چون Phi3 میتواند Llama.cpp را اجرا کند.
GGUF
GGUF (Generic Graph Update Format) فرمت مورد استفاده برای نمایش و بهروزرسانی مدلهای یادگیری ماشین است. این فرمت بهویژه برای مدلهای زبانی کوچکتر (SLMs) که میتوانند با کوانتیزاسیون ۴-۸ بیت بهخوبی روی CPU اجرا شوند، مفید است. GGUF برای نمونهسازی سریع و اجرای مدلها روی دستگاههای لبهای یا در کارهای دستهای مانند خطوط CI/CD بسیار کاربردی است.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است حاوی خطاها یا نواقصی باشند. سند اصلی به زبان بومی خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفهای انسانی توصیه میشود. ما مسئول هیچ گونه سوءتفاهم یا تفسیر نادرستی که از استفاده از این ترجمه ناشی شود، نیستیم.