Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为何可以产生prompts #10

Open
lyravv opened this issue Jul 2, 2024 · 4 comments
Open

为何可以产生prompts #10

lyravv opened this issue Jul 2, 2024 · 4 comments

Comments

@lyravv
Copy link

lyravv commented Jul 2, 2024

虽然llama-3-instruct模型是自回归模型,但其在sft和偏好对齐阶段训练时候,prompts是被mask掉的,不参与loss计算的。为什么给了前置template会自动产生prompts?

@zhangchen-xu
Copy link
Member

您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中

@lyravv
Copy link
Author

lyravv commented Jul 8, 2024

我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练(或者说退火阶段)数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下,仅使用llama3的bos token也有非常大的概率生成问答对。

@zhangchen-xu
Copy link
Member

我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题!
之前也发现有些时候生成instruction的时候捕捉不到<|eot_id|>,可能确实有一部分指令数据来自于退火!

@eyuansu62
Copy link

@lyravv 但是使用一些没有post train的模型 比如tinyllama,他同样会这样

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants