Chinese Instruction Datasets for LLMs

人人都爱ChatGPT，但是只有少数大型科技企业或实验室才有实力训练出这样的模型。最近，开源社区流行一种Self-Instruct做法：通过Instruct/ChatGPT创建指令数据集(Instruction datasets)，然后在小规模LLM (比如LLaMA 7B)上进行fine-tuning，也能得到"媲美"ChatGPT的效果。其中一个典型工作是Stanford Alpaca。

目前开源的指令数据集非常少并且主要是英文，仅有的几个中文指令数据集也是在英文数据集上进行翻译得到的，但考虑到大家对ChatGPT的强烈需求，我们相信后续会有越来越多的大规模中文指令数据集出现。

本项目旨在收集中文指令数据集，以便于大家能够更方便地对中文LLMs进行fine-tuning。

Dataset	Size	Description	Source
Guanaco Dataset	27808	多语言指令数据集，规模还会更新至92530	Guanaco
alpaca_chinese_dataset	正在更新中	将Alpaca数据集进行机器翻译+人工校验，并补充一些对话数据	Stanford Alpaca
alpaca-chinese-dataset	20465	将Alpaca数据集进行机器翻译得到	Stanford Alpaca
Chinese-alpaca-lora	更新中	将Alpaca数据集进行机器翻译得到，翻译模型是gpt-3.5-turbo, 后续会结合Guanaco数据集	Stanford Alpaca
GPT-4-LLM	52k	将Alpaca数据集的prompt利用ChatGPT进行翻译，然后利用GPT-4得到中文Response	Stanford Alpaca
BelleGroup/train_0.5M_CN	0.5M	作者创建的中文种子prompt，利用text-davinci-003得到Response	BELLE
BelleGroup/train_1M_CN	1M	中文种子prompt同上，利用text-davinci-003得到Response，相比于0.5M数据集，作者进行了数据清洗：去掉了一些质量不高的数据，例如自称`GPT模型`的数据、由于input不完善导致模型无法回答的数据，以及指令是中文但input或target是英文的数据。	BELLE
BelleGroup/school_math_0.25M	0.25M	中文数学题数据，包含解题过程，由ChatGPT产生	BELLE
BelleGroup/multiturn_chat_0.8M	0.8M	用户与助手的多轮对话，由ChatGPT产生	BELLE
BelleGroup/generated_chat_0.4M	0.4M	个性化角色对话数据，包含角色介绍，由ChatGPT产生	BELLE
BelleGroup/train_2M_CN	2M	中文指令数据，由ChatGPT产生	BELLE

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Chinese Instruction Datasets for LLMs

About

Releases

Packages

License

basicv8vc/chinese-instruction-datasets-for-llms

Folders and files

Latest commit

History

Repository files navigation

Chinese Instruction Datasets for LLMs

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages