这里需要考虑显卡是否和模型匹配,支不支持推理
先把模版拉取到本地:git clone https://github.com/sgl-project/sglang.git
我的位置是 /data/home/sglang
注意模版位于sglang下的examples/chat_template中
根据对应的模版部署模型,比如
docker run -d \--name *** \--gpus all \--...--v .../sglang_main:mnt/sglang_main \ // 把sglang的文件挂载到容器的对应位置
python3 -m sglang.launch_server\--model deepseek-ai/DeepSeek-V3-0324\--tp 8\--port 30000\--host 0.0.0.0\--mem-fraction-static 0.9\--tool-call-parser deepseekv3\--chat-template mnt/sglang_main/examples/chat_template/tool_chat_template_deepseekv3.jinja
注意这里要将模版的路径挂载到docker容器中,由于我挂在的时候多行命令会解析问题,所以最后要写成单行命令
完整命令参考:sglang单节点本地部署大模型_docker pull sglang-CSDN博客
部署后测试:测试本地部署的大模型-CSDN博客
ref
https://github.com/sgl-project/sglang/pull/5908
https://github.com/sgl-project/sglang/blob/main/examples/chat_template/tool_chat_template_deepseekv3.jinja