new_dataset.md
March 12, 2024 · View on GitHub
添加新数据集
- 引入官方数据集
- 首先,将官方数据集文件放置到
RawData/{dataset_name}目录下。这是准备数据的第一步,确保原始数据的完整性和可访问性。请注意,dataset_name及task_name中不建议出现"_",需以"-"替代。
- 首先,将官方数据集文件放置到
- 编写 make_dataset.py 脚本
- 在
datasets/目录下为你的数据集创建一个新的文件夹datasets/{``dataset_name}/。 - 参照【make_dataset介绍】教程,在
datasets/{dataset_name}/make_dataset.py中编写相应的创建数据逻辑。 - 运行
make_dataset.py脚本可以将原始数据转换成UltraEval框架所需的格式。完成转换后,你的数据集中的所有任务将以UltraEval格式的.jsonl文件形式出现在datasets/{dataset_name}/data/目录下。这些文件将按照任务名称命名,格式为task_name.jsonl。
- 在