Skip to content

Silk Road will be the dataset zoo for Luotuo(骆驼). Luotuo is an open sourced Chinese-LLM project founded by 陈启源 @ 华中师范大学 & 李鲁鲁 @ 商汤科技 & 冷子昂 @ 商汤科技

License

Notifications You must be signed in to change notification settings

LC1332/Luotuo-Silk-Road

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

人员 | 赞助 | 引用

丝绸之路: 构建中文大语言模型的数据基础

丝绸之路是骆驼项目的数据仓库页面。展示了骆驼项目中使用和发布的数据集。

丝绸之路是Luotuo(骆驼)的子项目之一, 后者由李鲁鲁, 冷子昂, 陈启源发起。

  • If you find this helpful, please star our major repo Luotuo(骆驼), Thanks Very Much

  • 如果你感到这个页面对你有帮助,拜托您去我们骆驼的主页也点上star,非常感谢!另外对于数据的需求,也尽量去主项目页提issue,谢谢。

骆驼项目发起至今,主要涉及以下几类数据


对话与指令数据集

Luotuo-Chinese-Alpaca

https://huggingface.co/datasets/silk-road/Vanilla-chinese-alpaca-luotuo

Chinese-Alpaca是我们在3月21日启动骆驼项目时候最早使用的数据集。包含了斯坦福Alpaca的翻译数据(有丢失)。

并且由于当时使用了较为初级的翻译指令,对于指令翻译会有“注入”的现象,会引入一定的噪音

Hugging Face使用方式:

from datasets import load_dataset

dataset = load_dataset("silk-road/Vanilla-chinese-alpaca-luotuo")

如果你希望更好的翻译方式,请查看更好的翻译脚本 Open In Colab

如果你希望质量更好的指令数据集,请查看后文的Chinese-WizardLM和Chinese-Dolly

Chinese-Dolly

https://huggingface.co/datasets/silk-road/chinese-dolly-15k

from datasets import load_dataset

dataset = load_dataset("silk-road/chinese-dolly-15k")

Chinese-Dolly-15k是骆驼团队翻译的Dolly instruction数据集。

原数据集'databricks/databricks-dolly-15k'是由数千名Databricks员工根据InstructGPT论文中概述的几种行为类别生成的遵循指示记录的开源数据集。这几个行为类别包括头脑风暴、分类、封闭型问答、生成、信息提取、开放型问答和摘要。

翻译后的数据包含完整的中英文对照的context和instruction字段,并且还有问题所属的category。

Chinese-WizardLM

https://huggingface.co/datasets/silk-road/Wizard-LM-Chinese-instruct-evol

from datasets import load_dataset

dataset = load_dataset("silk-road/Wizard-LM-Chinese-instruct-evol")

Chinese-WizardLM是在MSRA的Wizard-LM数据集上,对指令进行翻译,然后再调用GPT获得答案的数据集

Wizard-LM包含了很多难度超过Alpaca的指令。

中文的问题翻译会有少量指令注入导致翻译失败的情况.

中文回答是根据中文问题再进行问询得到的。

更多的指令数据集

在训练迷你骆驼的时候,我们参考PandasLLM和HuggingFace,合并了15M的指令数据。我们正在研究这部分数据是否可以用合适的方式发布出来。


阅读理解数据

阅读理解数据包含story-questions-answers的组合。

Chinese-CoQA

https://huggingface.co/datasets/silk-road/Luotuo-QA-A-CoQA-Chinese

Chinese-CoQA是在CoQA上进行的中文翻译和增广。使用这个数据集需要签署协议。

from datasets import load_dataset

# If the dataset is gated/private, make sure you have run huggingface-cli login
dataset = load_dataset("silk-road/Luotuo-QA-A-CoQA-Chinese")

CoQA中的文本来自七个不同领域的段落:儿童故事、文学作品、中学和高中英语考试、新闻、维基百科、Reddit和Science。

CoQA数据集经过简单清洗,共有7012个story,我们在此基础上将整个数据集翻译成了中文并进行了增广,其中每个story中包含5个左右的问题,每个问题进行了5次增广。

我们的协议与CoQA数据集原始协议保持一致,请阅读以下内容。

CoQA数据集包含来自七个领域的段落。我们将其中五个领域的段落以以下许可证公开:

文学和维基百科段落遵循CC BY-SA 4.0许可证共享。 儿童故事选自MCTest,该数据集附带MSR-LA许可证。 中学/高中考试段落选自RACE,该数据集有自己的许可证。 新闻段落选自DeepMind CNN数据集,该数据集有Apache许可证。

Luotuo-QA-B

https://huggingface.co/datasets/Logic123456789/luotuoQA-B

Luotuo-QA-B是一个增广的阅读理解问题。

from datasets import load_dataset

# If the dataset is gated/private, make sure you have run huggingface-cli login
dataset = load_dataset("Logic123456789/luotuoQA-B")

我们的数据集是在3个开源数据集之上生成构建的,这3个数据集分别是:

  • Chinese Scientific Literature Dataset

  • CNN-DailyMail News Text Summarization

  • arXiv Dataset

我们在这些数据集的基础上针对每一个摘要或新闻生成了5个“问题-答案”对。数据分布如下:

-从Chinese Scientific Literature Dataset(CSL)数据集中生成了25836条中文数据,共129180个问答对。

-从CNN-DailyMail News Text Summarization数据集中生成了2026条数据,共10130个问答对。

-从arXiv Dataset数据集中生成了3602条英文数据,共18010个问答对。

此外,由于此数据集是我们Luotuo-QA项目的一部分,我们将它命名为luotuo-QA-B。


图文跨模态数据

Chinese-MMC4-130k

https://huggingface.co/datasets/silk-road/MMC4-130k-chinese-image

MMC4-130k-chinese是对MMC4中,抽样了130k左右 simliarty较高的图文pair得到的数据集

并对这里所有的caption进行了翻译。由于这批抽样是MMC4上CLIP-L-14 similarity较高响应的图片,响应普遍都在0.4及以上。

怀疑OpenAI CLIP训练的时候,大量使用了图内带文字的图片。

Chinese-Coco-Captioning

[Coming Soon]

Chinese-Coco-Captioning是对CocoCaption进行了翻译

我们翻译了包括Coco-2017的训练集以及若干个其他年份的Validation集合。

这部分数据正在整理,将在之后发布


Embedding蒸馏数据

CNewSum-Embedding

[Coming Soon]

CNewSum-Embedding是我们在训练骆驼嵌入时使用的数据

对235k的中文新闻数据,实行了断句成为前后文。并且对于前后文分别求了OpenAI的1536维的Embedding特征。

这部分数据正在整理,将在之后发布


人员

最早的Luotuo-Chinese-Alpaca由李鲁鲁、冷子昂和陈启源共同完成。

后来黄泓森编写了更好的并行翻译脚本。

罗钦雨编写了Chinese-CoQA的协议,并且筹备了Luotuo-B数据集

李鲁鲁翻译了大多数其他的数据集,并且维护了hugging face的页面

CocoCaptioning,CNewSum-Embedding是由黄泓森和陈启源共同维护的。现在胡婧正在做进一步的工作。

赞助(Sponsorship) 骆驼项目

丝绸之路中的数据翻译费用完全使用了募集的捐款,感谢大家对我们项目的支持!

如果你有兴趣赞助骆驼项目,请点击主项目或者查看赞助表单

If you are interested in sponsoring the Luotuo Project, please click on the major project or view the sponsorship form.

回到开头

引用

如果您在项目中使用了我们的模型、代码或者数据,请引用这个repo。

@misc{alpaca,
  author={Ziang Leng, Qiyuan Chen and Cheng Li},
  title = {Luotuo: An Instruction-following Chinese Language model, LoRA tuning on LLaMA},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/LC1332/Luotuo-Chinese-LLM}},
}

About

Silk Road will be the dataset zoo for Luotuo(骆驼). Luotuo is an open sourced Chinese-LLM project founded by 陈启源 @ 华中师范大学 & 李鲁鲁 @ 商汤科技 & 冷子昂 @ 商汤科技

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages