NLP-小记

几个关键字 ——> 一条包含这些关键字的文本

直接用seq2seq

解码可以做优化，比如设置解码内容没有全部包含所有关键词就不结束

如果关键词多，从左到右的autoregressive是不适合的。但是non auto regressive是很适合的。只是需要确定mask数目，或者说遍历mask数目。(mask数量什么意思)

是可以用像lasertagger之类的方法，作为一个扩写任务

像T5的预训练任务也算是扩写

Do Not Have Enough Data? Deep Learning to the Rescue

利用GPT系列这些因果语言模型来生成训练数据来做数据增强，具体方法 y1 SEP X1 EOS y2 SEP X2 EOS ...... yn SEP xn EOS。训练方法就是预训练的步骤从左到右。这步微调然后通过 y SEP 来生成训练数据。y是标签。最后使用训练好的模型来确定有标签训练数据集合。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NLP-小记

几个关键字 ——> 一条包含这些关键字的文本

Do Not Have Enough Data? Deep Learning to the Rescue

About

Releases

Packages

weikang-wang/NLP-

Folders and files

Latest commit

History

Repository files navigation

NLP-小记

几个关键字 ——> 一条包含这些关键字的文本

Do Not Have Enough Data? Deep Learning to the Rescue

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages