Nøkkelteknologier som nevnes inkluderer
February 1, 2026 · View on GitHub
- DirectML - et lavnivå-API for maskinlæring akselerert av maskinvare, bygget på toppen av DirectX 12.
- CUDA - en plattform for parallell databehandling og et programmeringsgrensesnitt (API) utviklet av Nvidia, som muliggjør generell prosessering på grafikkprosessorer (GPUer).
- ONNX (Open Neural Network Exchange) - et åpent format designet for å representere maskinlæringsmodeller som gir interoperabilitet mellom ulike ML-rammeverk.
- GGUF (Generic Graph Update Format) - et format brukt for å representere og oppdatere maskinlæringsmodeller, spesielt nyttig for mindre språkmodeller som kan kjøre effektivt på CPUer med 4-8bit kvantisering.
DirectML
DirectML er et lavnivå-API som muliggjør maskinlæring akselerert av maskinvare. Det er bygget på toppen av DirectX 12 for å utnytte GPU-akselerasjon og er leverandøruavhengig, noe som betyr at det ikke krever kodeendringer for å fungere på tvers av ulike GPU-leverandører. Det brukes hovedsakelig til modelltrening og inferensarbeidsbelastninger på GPUer.
Når det gjelder maskinvarestøtte, er DirectML designet for å fungere med et bredt spekter av GPUer, inkludert AMD integrerte og diskrete GPUer, Intel integrerte GPUer og NVIDIA diskrete GPUer. Det er en del av Windows AI Platform og støttes på Windows 10 og 11, noe som gjør det mulig å trene og kjøre modeller på alle Windows-enheter.
Det har vært oppdateringer og muligheter knyttet til DirectML, som støtte for opptil 150 ONNX-operatører og bruk av både ONNX runtime og WinML. Det støttes av store Integrated Hardware Vendors (IHVs), som hver implementerer ulike metakommandoer.
CUDA
CUDA, som står for Compute Unified Device Architecture, er en plattform for parallell databehandling og et programmeringsgrensesnitt (API) utviklet av Nvidia. Det lar programvareutviklere bruke en CUDA-aktivert grafikkprosessor (GPU) til generell prosessering – en tilnærming kalt GPGPU (General-Purpose computing on Graphics Processing Units). CUDA er en nøkkelkomponent i Nvidias GPU-akselerasjon og brukes mye innen ulike felt, inkludert maskinlæring, vitenskapelig databehandling og videobehandling.
Maskinvarestøtten for CUDA er spesifikk for Nvidias GPUer, siden det er en proprietær teknologi utviklet av Nvidia. Hver arkitektur støtter spesifikke versjoner av CUDA-verktøykassen, som gir nødvendige biblioteker og verktøy for utviklere til å bygge og kjøre CUDA-applikasjoner.
ONNX
ONNX (Open Neural Network Exchange) er et åpent format designet for å representere maskinlæringsmodeller. Det gir en definisjon av en utvidbar beregningsgrafmodell, samt definisjoner av innebygde operatører og standard datatyper. ONNX gjør det mulig for utviklere å flytte modeller mellom ulike ML-rammeverk, noe som gir interoperabilitet og gjør det enklere å lage og distribuere AI-applikasjoner.
Phi3 mini kan kjøre med ONNX Runtime på CPU og GPU på tvers av enheter, inkludert serverplattformer, Windows, Linux og Mac skrivebord, samt mobile CPUer.
De optimaliserte konfigurasjonene vi har lagt til er
- ONNX-modeller for int4 DML: Kvantisert til int4 via AWQ
- ONNX-modell for fp16 CUDA
- ONNX-modell for int4 CUDA: Kvantisert til int4 via RTN
- ONNX-modell for int4 CPU og Mobile: Kvantisert til int4 via RTN
Llama.cpp
Llama.cpp er et åpen kildekode programvarebibliotek skrevet i C++. Det utfører inferens på ulike store språkmodeller (LLMs), inkludert Llama. Utviklet sammen med ggml-biblioteket (et generelt tensorbibliotek), har llama.cpp som mål å tilby raskere inferens og lavere minnebruk sammenlignet med den opprinnelige Python-implementeringen. Det støtter maskinvareoptimalisering, kvantisering, og tilbyr et enkelt API og eksempler. Hvis du er interessert i effektiv LLM-inferens, er llama.cpp verdt å utforske siden Phi3 kan kjøre Llama.cpp.
GGUF
GGUF (Generic Graph Update Format) er et format brukt for å representere og oppdatere maskinlæringsmodeller. Det er spesielt nyttig for mindre språkmodeller (SLMs) som kan kjøre effektivt på CPUer med 4-8bit kvantisering. GGUF er fordelaktig for rask prototyping og kjøring av modeller på edge-enheter eller i batch-jobber som CI/CD-pipelines.
Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på originalspråket skal anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.