SageMaker での LLM Instruction Tuning

September 25, 2023 · View on GitHub

このプロジェクトには、SageMaker 上で Large Language Models (LLM) をプロンプトでファインチューニング/デプロイするためのサンプルノートブックが含まれています。

3種類のノートブックがあります。

*_Inference.ipynb: 事前学習済みモデルをデプロイする。
*_Finetune.ipynb: 通常のファインチューニングを行い、モデルをデプロイする。
*_LoRA.ipynb: LoRA メソッドを用いたファインチューニングを行い、モデルをデプロイする。

モデルは利用しやすいように以下のような形式の json で学習できるように標準化されています。

[
    {
        "input": "",
        "instruction": "",
        "output": ""
    },
    ...
]

ノートブック一覧

ノートブック	説明
Alpaca_LoRA.ipynb	Alpaca-LoRA を Alpaca Dataset で LoRA チューニングとデプロイ
Alpaca_Inference.ipynb	Alpaca-LoRA をデプロイ
Alpaca_LoRA_ja.ipynb	Alpaca-LoRA を日本語 Alpaca Dataset で LoRA チューニングとデプロイ
Alpaca_Inference_ja.ipynb	日本語 Alpaca-LoRA をデプロイ
Cerebras_Finetune.ipynb	Cerebras を Dolly Dataset でファインチューニングとデプロイ
Cerebras_Inference.ipynb	Cerebras をデプロイ
Cerebras_LoRA.ipynb	Cerebras を Dolly Dataset で LoRA チューニングとデプロイ
Cerebras_LoRA_ja.ipynb	Cerebras を日本語 Dolly Dataset で LoRA チューニングとデプロイ
StableLM_Inference.ipynb	StableLM をデプロイ
StableLM_LoRA.ipynb	StableLM を Dolly Dataset で LoRA チューニングとデプロイ
StableLM_Inference_ja.ipynb	StableLM JP をデプロイ
StableLM_LoRA_ja.ipynb	StableLM JP を日本語 Dolly Dataset で LoRA チューニングとデプロイ
Dolly_v2_Inference.ipynb	Dolly v2 をデプロイ
Dolly_v2_LoRA.ipynb	Dolly v2 を Dolly Dataset で LoRA チューニングとデプロイ
OpenCALM_Inference_ja.ipynb	OpenCALM をデプロイ
OpenCALM_Inference_jaqket.ipynb	OpenCALM をデプロイし JAQKET データセットに対し推論
OpenCALM_LoRA_ja.ipynb	OpenCALM を Dolly Dataset で LoRA チューニングとデプロイ
OpenCALM_LoRA_jaqket.ipynb	OpenCALM を JAQKET で LoRA チューニングとデプロイ
Rinna_Neox_Inference_ja.ipynb	Rinna NeoX をデプロイ
Rinna_Neox_LoRA_ja.ipynb	Rinna NeoX を Dolly Dataset で LoRA チューニングとデプロイ
Rinna_Neox_LoRA_ja_djl.ipynb	Rinna NeoX を Dolly Dataset で LoRA チューニングと DJL を使用してデプロイ
RWKV_Inference.ipynb	RWKV のデプロイ
MPT_Inference.ipynb	MPT のデプロイ
MPT_LoRA.ipynb	MPT を Dolly Dataset で LoRA チューニングとデプロイ
MPT_LoRA_ja.ipynb	MPT を日本語 Dolly データセットで LoRA チューニングとデプロイ
Falcon_Inference.ipynb	Falcon をデプロイ
Falcon_LoRA.ipynb	Falcon を Dolly データセットで LoRA チューニングとデプロイ
Falcon_LoRA_ja.ipynb	Falcon を日本語 Dolly データセットで LoRA チューニングとデプロイ
Llama2_LoRA__TGI_ja.ipynb	Llama2 を日本語 Dolly データセットで LoRA チューニングして TGI コンテナでデプロイ
Elyza_Inference_TGI_ja.ipynb	Elyza を TGI コンテナでデプロイ
Elyza_LoRA_TGI_ja.ipynb	Elyza を日本語 Dolly データセットで LoRA チューニングして TGI コンテナでデプロイ
RWKV_Finetune.ipynb	RWKV を Dolly Dataset でファインチューニングとデプロイ
RWKV_LoRA.ipynb	RWKV を Dolly Dataset で LoRA チューニングとデプロイ
RWKV_LoRA_ja.ipynb	RWKV を日本語 Dolly データセットで LoRA チューニングとデプロイ
RWKV_Inference.ipynb	RWKV のデプロイ
RWKV_Inference_ja.ipynb	日本語 RWKV Raven のデプロイ

比較評価用

ノートブック	説明
OpenAI_Inference_Chat_Completions_jaqket.ipynb	OpenAI ChatCompletions API で JAQKET データセットに対し推論
OpenAI_Inference_jaqket.ipynb	OpenAI Completions API で JAQKET データセットに対し推論
OpenAI_Finetune_jaqket.ipynb	OpenAI API を JAQKET でファインチューニングし推論
OpenAI_Price_Calculator.ipynb	OpenAI API の価格を、データのトークン数から試算するための Notebook