TigerBot-mnbvc

March 9, 2024 · View on GitHub

项目描述

  • 本项目目的是将TigerBot开源数据集清洗为MNBVC的标准文本格式,数据源链接:TigerBot

环境

  1. 下载本项目
git clone TigerBot-mnbvc
  1. 进入目录并安装依赖
cd TigerBot-mnbvc
pip install -r requirements.txt

用法

通过以下命令将文件夹中文件清洗到目标文件夹中:

 python .\tiger_bot_extract.py [源文件夹] [目标文件夹] -m [模式]
  • 源文件夹:TigerBot数据集文件夹
  • 目标文件夹:清洗后的文件夹
  • 模式:可选,-m后面可以跟domainfine-tuningpretrainingdomain模式用于清洗领域数据,fine-tuning模式用于清洗微调数据,pretraining模式用于清洗预训练数据。

相关项目

MNBVC WikiHowQAExtractor-mnbvc ShareGPTQAExtractor-mnbvc deduplication_mnbvc