We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
虽然llama-3-instruct模型是自回归模型,但其在sft和偏好对齐阶段训练时候,prompts是被mask掉的,不参与loss计算的。为什么给了前置template会自动产生prompts?
The text was updated successfully, but these errors were encountered:
您可以参考在X上的这个讨论。我们也在分析为什么这个现象会出现在几乎所有主流模型中
Sorry, something went wrong.
我觉得不太像是它使用了Instruction Tuning。我的推测是目前大部分模型可能都使用two-stage或更多stage的预训练方法。即在后阶段的预训练(或者说退火阶段)数据中使用大量的指令对数据。template种的user之类的模板形式更多的是提供的语义信息。测试了一下,仅使用llama3的bos token也有非常大的概率生成问答对。
我们讨论了一下觉得很有道理! 我们会仔细探究一下这个问题! 之前也发现有些时候生成instruction的时候捕捉不到<|eot_id|>,可能确实有一部分指令数据来自于退火!
<|eot_id|>
@lyravv 但是使用一些没有post train的模型 比如tinyllama,他同样会这样
No branches or pull requests
虽然llama-3-instruct模型是自回归模型,但其在sft和偏好对齐阶段训练时候,prompts是被mask掉的,不参与loss计算的。为什么给了前置template会自动产生prompts?
The text was updated successfully, but these errors were encountered: