[LLM] add deploy server #9581

kevincheng2 · 2024-12-09T02:31:35Z

PR types

New features

PR changes

Others

Description

add llm deploy server

paddle-bot · 2024-12-09T02:31:39Z

Thanks for your contribution!

codecov · 2024-12-09T03:05:58Z

Codecov Report

All modified and coverable lines are covered by tests ✅

Project coverage is 52.98%. Comparing base (753436a) to head (2e1c5a8).
Report is 2 commits behind head on develop.

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #9581      +/-   ##
===========================================
+ Coverage    52.97%   52.98%   +0.01%     
===========================================
  Files          703      703              
  Lines       110981   110982       +1     
===========================================
+ Hits         58788    58809      +21     
+ Misses       52193    52173      -20

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

ZHUI · 2024-12-09T09:46:48Z

llm/server/README.md

+
+<h1 align="center"><b><em>大模型服务化部署</em></b></h1>
+
+*该部署工具是基于英伟达Triton框架专为服务器场景的大模型服务化部署而设计。它提供了支持gRPC、HTTP协议的服务接口，以及流式Token输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化（PTQ）等加速优化策略，为用户带来易用且高性能的部署体验。*


在 /llm/readme.md 上面也加上使用介绍吧。

ZHUI · 2024-12-09T09:48:09Z

llm/server/README.md

+*该部署工具是基于英伟达Triton框架专为服务器场景的大模型服务化部署而设计。它提供了支持gRPC、HTTP协议的服务接口，以及流式Token输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化（PTQ）等加速优化策略，为用户带来易用且高性能的部署体验。*
+
+# 快速开始
+


必须要搭配特定镜像使用吗？不能像vllm一样随意部署吗？

ZHUI · 2024-12-09T09:49:21Z

llm/server/README.md

+    # 下载模型
+    wget https://paddle-qa.bj.bcebos.com/inference_model/Meta-Llama-3-8B-Instruct-A8W8C8.tar
+    mkdir Llama-3-8B-A8W8C8 && tar -xf Meta-Llama-3-8B-Instruct-A8W8C8.tar -C Llama-3-8B-A8W8C8
+


可以提供更过开箱即用的量化模型吗？

ZHUI · 2024-12-09T09:52:02Z

llm/server/client/README.md

+
+
+```
+from fastdeploy_client.chatbot import ChatBot


emm，还是需要fd吗？fd的安装会不会有问题，版本要求，兼容性要求呢？

建议这个文件夹不要弄 fd 了吧，容易混淆

ZHUI · 2024-12-10T08:18:01Z

llm/server/client/README.md

+
+
+```
+from fastdeploy_client.chatbot import ChatBot


建议这个文件夹不要弄 fd 了吧，容易混淆

ZHUI · 2024-12-10T08:19:57Z

llm/server/client/setup.py

+    REQUIRED_PACKAGES = fin.read()
+
+setuptools.setup(
+    name="fastdeploy-client",


可以换一个 paddle 或者 paddlenlp 之类名字？

ZHUI · 2024-12-10T08:21:15Z

llm/server/README.md

+
+    docker run --gpus all --shm-size 5G --network=host --privileged --cap-add=SYS_PTRACE \
+    -v ${MODEL_PATH}:/models/ \
+    -dit registry.baidubce.com/paddlepaddle/fastdeploy:llm-serving-cuda123-cudnn9-v1.2 \


能否去除掉特定docker的依赖。依赖特定docker的话，会使得易用性降低。

[LLM] add deploy server

2e1c5a8

ZHUI reviewed Dec 9, 2024

View reviewed changes

ZHUI reviewed Dec 10, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[LLM] add deploy server #9581

[LLM] add deploy server #9581

kevincheng2 commented Dec 9, 2024

paddle-bot bot commented Dec 9, 2024

codecov bot commented Dec 9, 2024 •

edited

Loading

ZHUI Dec 9, 2024

ZHUI Dec 9, 2024

ZHUI Dec 9, 2024

ZHUI Dec 9, 2024

ZHUI Dec 10, 2024

ZHUI Dec 10, 2024

ZHUI Dec 10, 2024

ZHUI Dec 10, 2024


		<h1 align="center"><b><em>大模型服务化部署</em></b></h1>

		该部署工具是基于英伟达Triton框架专为服务器场景的大模型服务化部署而设计。它提供了支持gRPC、HTTP协议的服务接口，以及流式Token输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化（PTQ）等加速优化策略，为用户带来易用且高性能的部署体验。

		该部署工具是基于英伟达Triton框架专为服务器场景的大模型服务化部署而设计。它提供了支持gRPC、HTTP协议的服务接口，以及流式Token输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化（PTQ）等加速优化策略，为用户带来易用且高性能的部署体验。

		# 快速开始

[LLM] add deploy server #9581

Are you sure you want to change the base?

[LLM] add deploy server #9581

Conversation

kevincheng2 commented Dec 9, 2024

PR types

PR changes

Description

paddle-bot bot commented Dec 9, 2024

codecov bot commented Dec 9, 2024 • edited Loading

Codecov Report

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

codecov bot commented Dec 9, 2024 •

edited

Loading