TigerBot-mnbvc
March 9, 2024 · View on GitHub
项目描述
- 本项目目的是将TigerBot开源数据集清洗为MNBVC的标准文本格式,数据源链接:TigerBot
环境
- 下载本项目
git clone TigerBot-mnbvc
- 进入目录并安装依赖
cd TigerBot-mnbvc
pip install -r requirements.txt
用法
通过以下命令将文件夹中文件清洗到目标文件夹中:
python .\tiger_bot_extract.py [源文件夹] [目标文件夹] -m [模式]
源文件夹:TigerBot数据集文件夹目标文件夹:清洗后的文件夹模式:可选,-m后面可以跟domain或fine-tuning或pretraining。domain模式用于清洗领域数据,fine-tuning模式用于清洗微调数据,pretraining模式用于清洗预训练数据。
相关项目
MNBVC WikiHowQAExtractor-mnbvc ShareGPTQAExtractor-mnbvc deduplication_mnbvc