Releases · Tlntin/Qwen-TensorRT-LLM

支持Qwen-xxx-Chat-Int4模型直接编译成TensorRT Engine。
新增chatglm3-6b-32k模型支持，chatglm3-6b-32k与chatglm3-6b相比不同之处在于位置编码的rope_ratio不同，文档链接
新增chatglm2-6b模型支持，相比社区版本增加了tp支持，适用于chatglm2-6b和chatglm3-6b，文档链接。
待优化：glm2/3使用的是GQA，但是现在的计算方式退化成了MHA，猜测原因是glm2实现的时候gpt attention plugin还不支持gqa，可以说是遗留问题，可以参考llama 80B的实现，直接使用GQA，加速计算。
新增int4-awq支持，用于Qwen-xx-chat。
api.py新增function call功能，同时新增天气查询demo,代码在qwen/client/openai_function_call.py。（注意：天气api需要自己去和风天气申请，网站：https://dev.qweather.com/ ）
新增int4-gptq支持，感谢@Sanster的贡献。
更新TensorRT-LLM底层，从2023年7月份比赛专用版更新到10月份发布的release/0.5.0版。
增加TensorRT-LLM接入LangChain指南，文档链接。
增加Triton部署TensorRT-LLM教程，并且可选inflight_batching功能，文档链接。
支持int8-kv-cache和--remove_input_padding和--enable_context_fmha来节省显存。
新增英文Readme文件，放在qwen/Readme.md里面

Provide feedback