Skip to content

Releases: Tlntin/Qwen-TensorRT-LLM

v0.7.0

22 Mar 07:54
Compare
Choose a tag to compare

v0.6.1

22 Mar 07:51
Compare
Choose a tag to compare

What's Changed

  • load int4 gptq/awq safetensors weight in cpu to save vRAM by @Sanster in #46

Full Changelog: v0.5.0...v0.6.1

v0.5.0

07 Dec 13:31
Compare
Choose a tag to compare

更新记录

  • 支持Qwen-xxx-Chat-Int4模型直接编译成TensorRT Engine。
  • 新增chatglm3-6b-32k模型支持,chatglm3-6b-32k与chatglm3-6b相比不同之处在于位置编码的rope_ratio不同,文档链接
  • 新增chatglm2-6b模型支持,相比社区版本增加了tp支持,适用于chatglm2-6b和chatglm3-6b,文档链接
  • 待优化:glm2/3使用的是GQA,但是现在的计算方式退化成了MHA,猜测原因是glm2实现的时候gpt attention plugin还不支持gqa,可以说是遗留问题,可以参考llama 80B的实现,直接使用GQA,加速计算。
  • 新增int4-awq支持,用于Qwen-xx-chat。
  • api.py新增function call功能,同时新增天气查询demo,代码在qwen/client/openai_function_call.py。(注意:天气api需要自己去和风天气申请,网站:https://dev.qweather.com/
  • 新增int4-gptq支持,感谢@Sanster的贡献。
  • 更新TensorRT-LLM底层,从2023年7月份比赛专用版更新到10月份发布的release/0.5.0版。
  • 增加TensorRT-LLM接入LangChain指南,文档链接
  • 增加Triton部署TensorRT-LLM教程,并且可选inflight_batching功能,文档链接
  • 支持int8-kv-cache和--remove_input_padding和--enable_context_fmha来节省显存。
  • 新增英文Readme文件,放在qwen/Readme.md里面

v0.1.0

07 Dec 13:27
4306ba8
Compare
Choose a tag to compare

NVIDIA TensorRT Hackathon 2023相关的所有代码