【GPT入门】第46课 vllm安装、部署与使用
- 1.准备服务器
- 2. 安装 conda环境,隔离base环境
- 3. vllm使用
-
- 3.1 在线推理, openai兼容服务器
- 3.2 模型离线调用
- 4. 没有使用GPU问题分析
1.准备服务器
cuda 版本选12.1
vllm官网介绍:
https://vllm.hyper.ai/docs/getting-started/installation/gpu
2. 安装 conda环境,隔离base环境
为了实现高性能,vLLM 需要编译多个 cuda 内核。然而,这一编译过程会导致与其他 CUDA 版本和 PyTorch 版本的二进制不兼容问题。即便是在相同版本的 PyTorch 中,不同的构建配置也可能引发此类不兼容性。
因此,建议使用全新的 conda 环境安装 vLLM。如果您有不同的 CUDA 版本,或者想要使用现有的 PyTorch 安装,则需要从源代码构建 vLLM。更多说明请参阅下文。
conda create -n vllm python=3.10 -y
conda activate vllmpip install vllm
3. vllm使用
3.1 在线推理, openai兼容服务器
vLLM 可以部署为实现 OpenAI API 协议的服务器。这使得 vLLM 可以作为使用 OpenAI API 的应用程序的直接替代品。默认情况下,服务器在 http://localhost:8000 启动。您可以使用 --host 和 --port 参数指定地址。服务器目前 1 次托管 1 个模型,并实现了诸如:列出模型、创建聊天补全和创建补全等端点。
- 运行以下命令以启动 vLLM 服务器并使用 Qwen2.5-0.5B-Instruct 模型:
使用Qwen2.5模型
pip install model_scope
from modelscope import snapshot_downloadmodel_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct',cache_dir='/root/autodl-tmp/models')
print(model_dir)
- 启动服务
vllm serve /root/autodl-tmp/models/Qwen/Qwen2.5-0.5B-Instruct
列出模型
curl http://localh