استنتاج Phi-3 در Nvidia Jetson
February 1, 2026 · View on GitHub
Nvidia Jetson مجموعهای از بردهای محاسباتی تعبیهشده از شرکت Nvidia است. مدلهای Jetson TK1، TX1 و TX2 همگی دارای پردازنده Tegra (یا SoC) از Nvidia هستند که واحد پردازش مرکزی (CPU) با معماری ARM را در خود جای دادهاند. Jetson سیستمی کممصرف است و برای تسریع برنامههای یادگیری ماشین طراحی شده است. Nvidia Jetson توسط توسعهدهندگان حرفهای برای خلق محصولات پیشرفته هوش مصنوعی در تمامی صنایع استفاده میشود و همچنین دانشجویان و علاقهمندان برای یادگیری عملی هوش مصنوعی و ساخت پروژههای شگفتانگیز از آن بهره میبرند. SLM در دستگاههای لبهای مانند Jetson مستقر میشود که امکان پیادهسازی بهتر سناریوهای کاربردی هوش مصنوعی مولد صنعتی را فراهم میکند.
استقرار روی NVIDIA Jetson:
توسعهدهندگانی که روی رباتیک خودران و دستگاههای تعبیهشده کار میکنند، میتوانند از Phi-3 Mini بهره ببرند. اندازه نسبتاً کوچک Phi-3 آن را برای استقرار در لبه ایدهآل میکند. پارامترها در طول آموزش با دقت تنظیم شدهاند تا دقت بالایی در پاسخها تضمین شود.
بهینهسازی TensorRT-LLM:
کتابخانه TensorRT-LLM شرکت NVIDIA استنتاج مدلهای زبان بزرگ را بهینه میکند. این کتابخانه از پنجره متنی طولانی Phi-3 Mini پشتیبانی میکند و هم توان عملیاتی و هم تأخیر را بهبود میبخشد. بهینهسازیها شامل تکنیکهایی مانند LongRoPE، FP8 و پردازش دستهای در حال اجرا هستند.
در دسترس بودن و استقرار:
توسعهدهندگان میتوانند Phi-3 Mini با پنجره متنی 128K را در NVIDIA AI بررسی کنند. این مدل به صورت یک NVIDIA NIM بستهبندی شده است، یک میکروسرویس با API استاندارد که میتوان آن را در هر جایی مستقر کرد. همچنین، پیادهسازیهای TensorRT-LLM در گیتهاب در دسترس است.
1. آمادهسازی
a. Jetson Orin NX / Jetson NX
b. JetPack 5.1.2+
c. Cuda 11.8
d. Python 3.8+
2. اجرای Phi-3 در Jetson
میتوانیم از Ollama یا LlamaEdge استفاده کنیم.
اگر میخواهید از gguf همزمان در فضای ابری و دستگاههای لبهای استفاده کنید، LlamaEdge را میتوان به عنوان WasmEdge در نظر گرفت (WasmEdge یک محیط اجرای WebAssembly سبک، با عملکرد بالا و مقیاسپذیر است که برای برنامههای بومی ابری، لبه و غیرمتمرکز مناسب است. این محیط از برنامههای بدون سرور، توابع تعبیهشده، میکروسرویسها، قراردادهای هوشمند و دستگاههای IoT پشتیبانی میکند. شما میتوانید مدل کمیشده gguf را از طریق LlamaEdge روی دستگاههای لبهای و فضای ابری مستقر کنید).

مراحل استفاده به شرح زیر است:
- نصب و دانلود کتابخانهها و فایلهای مرتبط
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh | bash -s -- --plugin wasi_nn-ggml
curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm
curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
توجه: فایلهای llama-api-server.wasm و chatbot-ui باید در یک پوشه قرار داشته باشند.
- اجرای اسکریپتها در ترمینال
wasmedge --dir .:. --nn-preload default:GGML:AUTO:{Your gguf path} llama-api-server.wasm -p phi-3-chat
نتیجه اجرای برنامه به شکل زیر است:

نمونه کد نمونه دفترچه Phi-3 mini WASM
در مجموع، Phi-3 Mini جهشی بزرگ در مدلسازی زبان است که کارایی، آگاهی از زمینه و توان بهینهسازی NVIDIA را ترکیب میکند. چه در حال ساخت ربات باشید و چه برنامههای لبهای، Phi-3 Mini ابزاری قدرتمند است که باید آن را بشناسید.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است حاوی خطاها یا نواقصی باشند. سند اصلی به زبان بومی خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفهای انسانی توصیه میشود. ما مسئول هیچ گونه سوءتفاهم یا تفسیر نادرستی که از استفاده از این ترجمه ناشی شود، نیستیم.