Skip to content

basicv8vc/chinese-instruction-datasets-for-llms

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Chinese Instruction Datasets for LLMs

人人都爱ChatGPT,但是只有少数大型科技企业或实验室才有实力训练出这样的模型。最近,开源社区流行一种Self-Instruct做法:通过Instruct/ChatGPT创建指令数据集(Instruction datasets),然后在小规模LLM (比如LLaMA 7B)上进行fine-tuning,也能得到"媲美"ChatGPT的效果。其中一个典型工作是Stanford Alpaca

目前开源的指令数据集非常少并且主要是英文,仅有的几个中文指令数据集也是在英文数据集上进行翻译得到的,但考虑到大家对ChatGPT的强烈需求,我们相信后续会有越来越多的大规模中文指令数据集出现。

本项目旨在收集中文指令数据集,以便于大家能够更方便地对中文LLMs进行fine-tuning。

Dataset Size Description Source
Guanaco Dataset 27808 多语言指令数据集,规模还会更新至92530 Guanaco
alpaca_chinese_dataset 正在更新中 将Alpaca数据集进行机器翻译+人工校验,并补充一些对话数据 Stanford Alpaca
alpaca-chinese-dataset 20465 将Alpaca数据集进行机器翻译得到 Stanford Alpaca
Chinese-alpaca-lora 更新中 将Alpaca数据集进行机器翻译得到,翻译模型是gpt-3.5-turbo, 后续会结合Guanaco数据集 Stanford Alpaca
GPT-4-LLM 52k 将Alpaca数据集的prompt利用ChatGPT进行翻译,然后利用GPT-4得到中文Response Stanford Alpaca
BelleGroup/train_0.5M_CN 0.5M 作者创建的中文种子prompt,利用text-davinci-003得到Response BELLE
BelleGroup/train_1M_CN 1M 中文种子prompt同上,利用text-davinci-003得到Response,相比于0.5M数据集,作者进行了数据清洗:去掉了一些质量不高的数据,例如自称GPT模型的数据、由于input不完善导致模型无法回答的数据,以及指令是中文但input或target是英文的数据。 BELLE
BelleGroup/school_math_0.25M 0.25M 中文数学题数据,包含解题过程,由ChatGPT产生 BELLE
BelleGroup/multiturn_chat_0.8M 0.8M 用户与助手的多轮对话,由ChatGPT产生 BELLE
BelleGroup/generated_chat_0.4M 0.4M 个性化角色对话数据,包含角色介绍,由ChatGPT产生 BELLE
BelleGroup/train_2M_CN 2M 中文指令数据,由ChatGPT产生 BELLE

Releases

No releases published

Packages

No packages published