中文羊驼大模型二期 v3.2
本次更新推出小参数量基座/聊天模型Chinese-LLaMA-2-1.3B和Chinese-Alpaca-2-1.3B,以及对投机采样解码策略的支持
🚀 Chinese-LLaMA-2-1.3B、Chinese-Alpaca-2-1.3B,投机采样解码策略
- 推出4层的小参数量中文LLaMA/Alpaca模型,使用和大模型相同数据量进行了中文预训练(Chinese-LLaMA-2-1.3B)和指令精调训练(Chinese-Alpaca-2-1.3B)。
- 投机采样是一种解码加速策略,借助能力稍弱但速度较快的小模型加速大模型的推理。其理论细节可查看相关论文。本次更新实现了投机采样解码策略,可使用小模型加速大模型的解码,并在
gradio_demo.py
和inference_hf.py
中添加了使用投机采样的参数。 - 经测试,A40-48G GPU上使用Chinese-Alpaca-2-1.3B模型加速Chinese-Alpaca-2-7B/13B模型推理,平均推理速度提升了1.3~1.6倍。详细用法和加速效果请参考wiki
注意事项:小参数量模型可以像7B/13B模型一样直接用于推理,但结果会比大模型差,建议用于投机采样加速大模型推理。