Finetuning_VSCodeaitoolkit.md
February 1, 2026 · View on GitHub
Velkommen til AI Toolkit for VS Code
AI Toolkit for VS Code samler forskellige modeller fra Azure AI Studio Catalog og andre kataloger som Hugging Face. Toolkit’et forenkler de almindelige udviklingsopgaver til at bygge AI-apps med generative AI-værktøjer og modeller gennem:
- Kom godt i gang med modelopdagelse og playground.
- Model finjustering og inferens ved brug af lokale computerressourcer.
- Fjernfinjustering og inferens ved brug af Azure-ressourcer
Installer AI Toolkit for VSCode

[Private Preview] Én-klik provisioning til Azure Container Apps for at køre model finjustering og inferens i skyen.
Lad os nu gå i gang med din AI-app udvikling:
Lokal udvikling
Forberedelser
- Sørg for, at NVIDIA-driveren er installeret på værten.
- Kør
huggingface-cli login, hvis du bruger HF til dataset-udnyttelse - Forklaringer til
Olivenøgleindstillinger for alt, der ændrer hukommelsesforbruget.
Aktivér Conda
Da vi bruger WSL-miljøet, som deles, skal du manuelt aktivere conda-miljøet. Efter dette trin kan du køre finjustering eller inferens.
conda activate [conda-env-name]
Kun finjustering af basismodellen
Hvis du bare vil prøve basismodellen uden finjustering, kan du køre denne kommando efter aktivering af conda.
cd inference
# Web browser interface allows to adjust a few parameters like max new token length, temperature and so on.
# User has to manually open the link (e.g. http://0.0.0.0:7860) in a browser after gradio initiates the connections.
python gradio_chat.py --baseonly
Model finjustering og inferens
Når arbejdsområdet er åbnet i en dev container, åbn en terminal (standardstien er projektets rodmappe), og kør derefter kommandoen nedenfor for at finjustere en LLM på det valgte datasæt.
python finetuning/invoke_olive.py
Checkpoints og den endelige model gemmes i mappen models.
Kør derefter inferens med den finjusterede model via chats i en console, webbrowser eller prompt flow.
cd inference
# Console interface.
python console_chat.py
# Web browser interface allows to adjust a few parameters like max new token length, temperature and so on.
# User has to manually open the link (e.g. http://127.0.0.1:7860) in a browser after gradio initiates the connections.
python gradio_chat.py
For at bruge prompt flow i VS Code, se venligst denne Quick Start.
Model finjustering
Download herefter den model, der passer til, om der er en GPU tilgængelig på din enhed.
For at starte en lokal finjusteringssession med QLoRA, vælg en model, du vil finjustere, fra vores katalog.
| Platform(e) | GPU tilgængelig | Modelnavn | Størrelse (GB) |
|---|---|---|---|
| Windows | Ja | Phi-3-mini-4k-directml-int4-awq-block-128-onnx | 2.13GB |
| Linux | Ja | Phi-3-mini-4k-cuda-int4-onnx | 2.30GB |
| Windows Linux | Nej | Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx | 2.72GB |
Bemærk Du behøver ikke en Azure-konto for at downloade modellerne
Phi3-mini (int4) modellen er cirka 2GB-3GB stor. Afhængigt af din netværkshastighed kan det tage et par minutter at downloade.
Start med at vælge et projektnavn og placering.
Dernæst vælg en model fra modelkataloget. Du vil blive bedt om at downloade projektskabelonen. Du kan derefter klikke på "Configure Project" for at justere forskellige indstillinger.
Microsoft Olive
Vi bruger Olive til at køre QLoRA finjustering på en PyTorch-model fra vores katalog. Alle indstillinger er forudindstillet med standardværdier for at optimere kørsel af finjusteringsprocessen lokalt med optimeret hukommelsesbrug, men de kan tilpasses til dit scenarie.
Eksempler og ressourcer til finjustering
- Guide til at komme i gang med finjustering
- Finjustering med et HuggingFace-datasæt
- Finjustering med Simple DataSet
[Private Preview] Fjernudvikling
Forudsætninger
- For at køre model finjustering i dit fjern-Azure Container App-miljø, skal du sikre, at dit abonnement har nok GPU-kapacitet. Indsend en supportanmodning for at få den nødvendige kapacitet til din applikation. Få mere info om GPU-kapacitet
- Hvis du bruger private datasæt på HuggingFace, skal du have en HuggingFace-konto og generere et adgangstoken
- Aktiver Remote Fine-tuning og Inference feature-flag i AI Toolkit for VS Code
- Åbn VS Code-indstillinger ved at vælge File -> Preferences -> Settings.
- Gå til Extensions og vælg AI Toolkit.
- Vælg "Enable Remote Fine-tuning And Inference" optionen.
- Genstart VS Code for at aktivere ændringen.
Opsætning af et fjernudviklingsprojekt
- Kør kommando-paletten
AI Toolkit: Focus on Resource View. - Naviger til Model Fine-tuning for at få adgang til modelkataloget. Giv dit projekt et navn og vælg dets placering på din maskine. Klik derefter på "Configure Project".
- Projektkonfiguration
- Undgå at aktivere "Fine-tune locally" optionen.
- Olive-konfigurationsindstillingerne vises med forudindstillede standardværdier. Juster og udfyld disse konfigurationer efter behov.
- Fortsæt til Generate Project. Dette trin bruger WSL og sætter et nyt Conda-miljø op, som forbereder til fremtidige opdateringer med Dev Containers.
- Klik på "Relaunch Window In Workspace" for at åbne dit fjernudviklingsprojekt.
Bemærk: Projektet fungerer i øjeblikket enten lokalt eller fjernstyret inden for AI Toolkit for VS Code. Hvis du vælger "Fine-tune locally" under projektoprettelsen, vil det kun køre i WSL uden fjernudviklingsfunktioner. Hvis du derimod ikke aktiverer "Fine-tune locally", vil projektet være begrænset til det fjernstyrede Azure Container App-miljø.
Provision af Azure-ressourcer
For at komme i gang skal du provisionere Azure-ressourcen til fjernfinjustering. Det gør du ved at køre AI Toolkit: Provision Azure Container Apps job for fine-tuning fra kommando-paletten.
Følg fremskridtet for provisioneringen via linket, der vises i outputkanalen.
[Valgfrit] Tilføj Huggingface-token til Azure Container App Secret
Hvis du bruger private HuggingFace-datasæt, kan du sætte dit HuggingFace-token som en miljøvariabel for at undgå manuel login på Hugging Face Hub.
Det kan du gøre med kommandoen AI Toolkit: Add Azure Container Apps Job secret for fine-tuning. Med denne kommando kan du sætte hemmelighedsnavnet til HF_TOKEN og bruge dit Hugging Face-token som hemmelighedsværdi.
Kør finjustering
For at starte det fjernstyrede finjusteringsjob, kør kommandoen AI Toolkit: Run fine-tuning.
For at se system- og konsollogs kan du besøge Azure-portalen via linket i outputpanelet (flere trin findes under View and Query Logs on Azure). Alternativt kan du se konsollogs direkte i VSCode’s outputpanel ved at køre kommandoen AI Toolkit: Show the running fine-tuning job streaming logs.
Bemærk: Jobbet kan være i kø på grund af utilstrækkelige ressourcer. Hvis loggen ikke vises, kør da
AI Toolkit: Show the running fine-tuning job streaming logskommandoen, vent lidt og kør den igen for at genoprette forbindelsen til streamingloggen.
Under processen vil QLoRA blive brugt til finjustering og oprette LoRA-adaptere til modellen, som bruges under inferens.
Resultaterne af finjusteringen gemmes i Azure Files.
Provision af inferens-endpoint
Når adapterne er trænet i det fjernstyrede miljø, kan du bruge en simpel Gradio-applikation til at interagere med modellen.
Ligesom ved finjustering skal du opsætte Azure-ressourcer til fjerninferens ved at køre AI Toolkit: Provision Azure Container Apps for inference fra kommando-paletten.
Som standard bør abonnement og ressourcegruppe til inferens matche dem, der bruges til finjustering. Inferensen vil bruge det samme Azure Container App-miljø og få adgang til modellen og modeladapteren, som er gemt i Azure Files og blev genereret under finjusteringstrinnet.
Deploy inferens-endpoint
Hvis du ønsker at ændre inferenskoden eller genindlæse inferensmodellen, skal du køre kommandoen AI Toolkit: Deploy for inference. Dette vil synkronisere din seneste kode med Azure Container App og genstarte replikaen.
Når deployment er gennemført med succes, kan du få adgang til inferens-API’en ved at klikke på knappen "Go to Inference Endpoint" i VSCode-notifikationen. Alternativt kan web-API-endpointet findes under ACA_APP_ENDPOINT i ./infra/inference.config.json og i outputpanelet. Du er nu klar til at evaluere modellen via dette endpoint.
Avanceret brug
For mere information om fjernudvikling med AI Toolkit, se dokumentationen om Finjustering af modeller fjernstyret og Inferens med den finjusterede model.
Ansvarsfraskrivelse:
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten Co-op Translator. Selvom vi bestræber os på nøjagtighed, bedes du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der opstår som følge af brugen af denne oversættelse.