Releases: Tlntin/Qwen-TensorRT-LLM
Releases · Tlntin/Qwen-TensorRT-LLM
v0.7.0
v0.6.1
v0.5.0
更新记录
- 支持Qwen-xxx-Chat-Int4模型直接编译成TensorRT Engine。
- 新增chatglm3-6b-32k模型支持,chatglm3-6b-32k与chatglm3-6b相比不同之处在于位置编码的rope_ratio不同,文档链接
- 新增chatglm2-6b模型支持,相比社区版本增加了tp支持,适用于chatglm2-6b和chatglm3-6b,文档链接。
- 待优化:glm2/3使用的是GQA,但是现在的计算方式退化成了MHA,猜测原因是glm2实现的时候gpt attention plugin还不支持gqa,可以说是遗留问题,可以参考llama 80B的实现,直接使用GQA,加速计算。
- 新增int4-awq支持,用于Qwen-xx-chat。
- api.py新增function call功能,同时新增天气查询demo,代码在qwen/client/openai_function_call.py。(注意:天气api需要自己去和风天气申请,网站:https://dev.qweather.com/ )
- 新增int4-gptq支持,感谢@Sanster的贡献。
- 更新TensorRT-LLM底层,从2023年7月份比赛专用版更新到10月份发布的release/0.5.0版。
- 增加TensorRT-LLM接入LangChain指南,文档链接。
- 增加Triton部署TensorRT-LLM教程,并且可选inflight_batching功能,文档链接。
- 支持int8-kv-cache和--remove_input_padding和--enable_context_fmha来节省显存。
- 新增英文Readme文件,放在
qwen/Readme.md
里面