Skip to content

中文羊驼大模型二期 v3.2

Compare
Choose a tag to compare
@airaria airaria released this 26 Oct 08:05
· 19 commits to main since this release
5291797

本次更新推出小参数量基座/聊天模型Chinese-LLaMA-2-1.3B和Chinese-Alpaca-2-1.3B,以及对投机采样解码策略的支持

🚀 Chinese-LLaMA-2-1.3B、Chinese-Alpaca-2-1.3B,投机采样解码策略

  • 推出4层的小参数量中文LLaMA/Alpaca模型,使用和大模型相同数据量进行了中文预训练(Chinese-LLaMA-2-1.3B)和指令精调训练(Chinese-Alpaca-2-1.3B)。
  • 投机采样是一种解码加速策略,借助能力稍弱但速度较快的小模型加速大模型的推理。其理论细节可查看相关论文。本次更新实现了投机采样解码策略,可使用小模型加速大模型的解码,并在gradio_demo.pyinference_hf.py中添加了使用投机采样的参数。
  • 经测试,A40-48G GPU上使用Chinese-Alpaca-2-1.3B模型加速Chinese-Alpaca-2-7B/13B模型推理,平均推理速度提升了1.3~1.6倍。详细用法和加速效果请参考wiki

注意事项:小参数量模型可以像7B/13B模型一样直接用于推理,但结果会比大模型差,建议用于投机采样加速大模型推理。

其他更新

  • 添加了对kbits训练的支持 (#229)
  • Peft相关更新和修复 (#246, #251)
  • FAQ:添加了问题12、13 (#249)
  • C-Eval: 更新了prompt模板 (#255)
  • LongBench: 更新了测试结果 (#259)
  • LangChain: 更新了示例中的超参设置 (#271)
  • 修复了推理脚本中量化推理相关问题 (#302)
  • 适配了FlashAttention对推理的优化,现在可以在推理时搭配FlashAttention进行加速。使用方法参考wiki (#367)