【VLLM】VLLM使用

一 、安装

二、启动入口

VLLM 提供了多种入口方式启动模型,以适应不同的使用场景(如命令行交互、API 服务、自定义集成等)。除了最常用的 openai.api_server(OpenAI 兼容 API 服务),还有以下主要入口:

1. cli:命令行交互式推理

适合快速测试模型,直接在终端进行对话交互。

python -m vllm.entrypoints.cli \--model lmsys/vicuna-7b-v1.5 \--tensor-parallel-size 1 \--max-model-len 2048

特点:

  • 启动后进入交互式命令行,可直接输入 prompt 与模型对话
  • 支持设置采样参数(如 --temperature、–top-p 等)
  • 适合用于快速验证模型功能或调试
2.api_server:通用 RESTful API 服务
python -m vllm.entrypoints.api_server \--model facebook/opt-13b \--port 8000 \--tensor-parallel-size 2

特点:

  • 提供 /generate 和 /generate_stream 接口,支持同步和流式输出
  • 请求 / 响应格式为 VLLM 自定义结构(与 OpenAI API 不同)
  • 适合需要轻量 API 服务的场景,无需兼容 OpenAI 格式
3. grpc_server:GRPC 服务

通过 GRPC 协议提供高性能的模型推理服务,适合低延迟、高并发的后端集成。

python -m vllm.entrypoints.grpc_server \--model meta-llama/Llama-2-70b-chat-hf \--tensor-parallel-size 4 \--port 50051

特点:

  • 基于 GRPC 协议,比 REST API 具有更低的序列化开销
  • 需配合 VLLM 定义的 .proto 协议文件开发客户端
  • 适合高性能、分布式系统中的服务间调用
4. controller 与 worker:分布式部署入口

用于大规模分布式部署,支持多 worker 节点协同工作,由 controller 负责负载均衡。

(1)启动 controller
python -m vllm.entrypoints.controller \--host 0.0.0.0 \--port 8000
(2)启动 worker(需指定 controller 地址)
python -m vllm.entrypoints.worker \--model bigscience/bloom \--controller http://localhost:8000 \--worker http://localhost:8001 \--tensor-parallel-size 2
(3)启动 api_server 连接分布式集群
python -m vllm.entrypoints.openai.api_server \--served-model-name bloom \--controller http://localhost:8000 \--port 8002

特点:

  • 支持横向扩展(增加 worker 节点提升吞吐量)
  • 适合生产环境中大规模部署,支持动态扩缩容
  • 需要 controller 协调多个 worker 节点的任务分配

可通过 python -m vllm.entrypoints.<入口名> --help 查看各入口的具体参数(如 python -m vllm.entrypoints.cli --help)。

三、openai.api_server入口启动参数

1.常用启动脚本
CUDA_VISIBLE_DEVICES=4,5  nohup python -m vllm.entrypoints.openai.api_server --model /data/models/Qwen3-32B --trust-remote-code --served-model-name Qwen3-32B  --tensor-parallel-size 2  --gpu-memory-utilization 0.9 --max-model-len 32768  --port 40113 --swap-space 16  --disable-log-requests --enable-chunked-prefill --enable-prefix-caching  >> startQwen32B.log 2>&1 &
2.常见参数

VLLM 启动模型时的主要可选参数分类及说明(以最常用的 openai.api_server 入口为例):

(1).模型与权重配置
  • model MODEL_PATH
    必选参数,指定模型权重路径(本地路径或 Hugging Face Hub 模型名,如 lmsys/vicuna-7b-v1.5)。
  • trust-remote-code
    允许加载模型中定义的远程代码(适用于自定义模型结构,如 Qwen、LLaMA 等)。
  • revision REVISION
    指定模型在 Hugging Face Hub 上的版本(分支名或 commit hash)。
  • code-path CODE_PATH
    自定义模型代码的本地路径(当 trust_remote_code 不适用时)。
  • tokenizer TOKENIZER_PATH
    自定义分词器路径(默认与模型路径相同)。
  • tokenizer-mode {auto,slow}
    分词器模式,slow 用于不支持快速分词的模型。
(2).并行与硬件配置
  • tensor-parallel-size N
    张量并行的 GPU 数量(需与可用 GPU 数量匹配,如 --tensor-parallel-size 2 表示用 2 张卡并行)。
  • gpu-memory-utilization RATIO
    GPU 内存利用率上限(0~1 之间,如 0.9 表示使用 90% 的 GPU 内存)。
  • cpu-offloading
    启用 CPU 卸载(将部分层转移到 CPU 内存,缓解 GPU 内存压力,速度会降低)。
  • disable-custom-all-reduce
    禁用自定义的 all-reduce 通信优化(适用于某些不兼容的 GPU 环境)。
  • pipeline-parallel-size N
    流水线并行的 GPU 数量(较少使用,通常与张量并行配合)。
(3).推理性能与缓存配置
  • max-model-len LENGTH
    模型支持的最大序列长度(输入 + 输出,如 32768 表示 32k 长度)。
  • swap-space SWAP_SIZE
    CPU 交换空间大小(GB),用于临时存储超出 GPU 内存的 KV 缓存(如 16 表示 16GB)。
  • enable-chunked-prefill
    启用分块预填充(将长输入的 Prefill 阶段分块处理,减少峰值内存占用)。
  • enable-prefix-caching
    启用前缀缓存(复用相同 prompt 前缀的 KV 缓存,加速重复请求)。
  • kv-cache-dtype {fp8,fp16,bf16,auto}
    KV 缓存的数据类型(如 fp8 可减少内存占用,需 GPU 支持)。
  • max-num-batched-tokens NUM
    批处理中允许的最大 token 总数(控制单批处理量,影响吞吐量)。
  • max-num-seqs NUM
    批处理中允许的最大序列数(并发请求数上限)。
(4).API 服务配置(OpenAI 兼容接口)
  • host HOST
    服务绑定的 IP 地址(默认 0.0.0.0,允许外部访问)。
  • port PORT
    服务监听的端口(如 8000)。
  • served-model-name NAME
    对外暴露的模型名称(API 调用时使用,默认与模型名相同)。
  • allow-credentials
    允许跨域请求携带 credentials(用于前端跨域调用)。
  • allowed-origins ORIGINS
    允许的跨域来源(如 http://localhost:3000,多个用逗号分隔)。
  • allowed-methods METHODS
    允许的 HTTP 方法(默认 GET,POST,OPTIONS)。
    -allowed-headers HEADERS
    允许的 HTTP 头(默认 *)。
(5).日志与调试配置
  • log-level {debug,info,warn,error}
    日志级别(默认 info)。
  • disable-log-requests
    禁用请求日志(不记录 API 调用详情)。
  • debug
    启用调试模式(输出更详细的日志)。
(6).其他高级配置
  • seed SEED
    随机种子(确保推理结果可复现)。
  • temperature TEMPERATURE
    采样温度(默认 1.0,值越低输出越确定)。
  • top-p TOP_P
    核采样参数(默认 1.0,控制输出多样性)。
  • max-log-probs MAX_LOG_PROBS
    返回的最大对数概率数量(用于 token 概率分析)。
  • quantization {awq,gptq,sq,int4,int8}
    启用模型量化(如 awq 或 gptq,减少内存占用)。
  • rope-scaling {linear,dynamic}
    RoPE 缩放方式(用于扩展模型的上下文长度)。
  • rope-factor FACTOR
    RoPE 缩放因子(配合 rope-scaling 使用)。
3.参数查询方式

python -m vllm.entrypoints.openai.api_server --help

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91264.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为Github Copilot创建自定义指令/说明/注意事项

GitHub Copilot 是一个强大的 AI 编程助手&#xff0c;通过合理配置自定义指令&#xff0c;可以让它更好地理解和遵循项目特定的编码规范&#xff0c;省的每次提问时输入重复提示语。 目录 方法一&#xff1a;项目级别指令文件&#xff08;推荐&#xff09;方法二&#xff1a…

信创厚知联盟会长兼创始人莅临绿算技术

2025年7月29日&#xff0c;信创厚知联盟会长兼创始人王杲一行考察广东省绿算技术有限公司&#xff0c;重点调研其在智算中心存储与AI算力协同领域的创新成果。此次交流标志着双方在信创产业生态合作上迈出重要一步&#xff0c;为国产高端高性能全闪存存储与智算基础设施的融合发…

RAG面试内容整理-Prompt Engineering 在 RAG 中的作用

Prompt Engineering(提示工程)指为生成模型精心设计输入提示,以引导模型产生所需的输出。在RAG系统中,prompt设计对充分利用检索到的知识至关重要。因为生成器(通常是LLM)接收到的不仅有用户问题,还有检索的文档内容,我们需要通过提示明确告诉模型如何使用这些信息。例…

【计算机网络】5传输层

传输层是面向通信的最高层&#xff0c;也是用户功能的最底层。 传输层仅存在于主机中&#xff0c;路由器等中间设备只用到下三层&#xff08;无传输层&#xff09;。传输层对上层应用隐藏了底层网络的复杂细节&#xff08;比如数据怎么路由、网络怎么连接等&#xff09;。对应用…

SecureCRT连接密钥交换失败

SecureCRT连接密钥交换失败问题描述&#xff1a;问题分析&#xff1a;解决方案&#xff1a;问题描述&#xff1a; SecureCRT6.7连接银河麒麟操作系统v10版本&#xff0c;报错如下&#xff1a; key exchange failed 密钥交换失败 no compatible key exchange method. The serv…

2021-05-10 求出这十个数据的平均值,并输入高于平均值的所有元素值及下标求出这十个数据的平均值,并输入高于平均值的所有元素值及下标

缘由C语言向一维数组a[10]中输入10个数据&#xff1a;12&#xff0c;15&#xff0c;18&#xff0c;21&#xff0c;24&#xff0c;32&#xff0c;34&#xff0c;36&#xff0c;38&#xff0c;4-其他-CSDN问答 double a[10000]{}, j 0; int n 0;while (n < 10000){std::cin …

WordPress与主流CMS拿Webshell实战

一、wordpress安装环境首先我们在vulhub中启动我们wordpress的doaker容器然后去访问我们的80端口然后选择简体中文进行安装然后就可以登录到我们的后台界面了后台修改模板拿webshell进入后台&#xff0c;我们修改一下404页面的代码&#xff0c;添加我们的一句话木马然后保存&am…

指针的运算与数组

一、指针的运算1.1加法对指针可以进行加法运算&#xff0c;即p n或者p - n。其结果依旧是一个是一个指针&#xff0c;新的指针是在原来的地址值基础上加上/减去n *(sizeof(指针指向的数据类型)&#xff09;个字节。 指针也可以进行自增&#xff0c;即*&#xff08;p &#xf…

【PostgreSQL内核学习:WindowAgg 帧优化与节点去重】

PostgreSQL内核学习&#xff1a;WindowAgg 帧优化与节点去重背景关键词解释本优化主要修改内容描述提交信息提交描述源码解读optimize_window_clauses 函数核心逻辑拆解函数时序图新增结构体类型 SupportRequestOptimizeWindowClause优化后的效果帧优化 sql 用例查询计划输出节…

行业要闻|正式落地!新思科技宣布完成对Ansys的收购

2025年7月17日——新思科技&#xff08;Synopsys, Inc.&#xff0c;纳斯达克股票代码&#xff1a;SNPS&#xff09;宣布完成对Ansys的收购。该交易旨在整合芯片设计、IP核以及仿真与分析领域的领先企业&#xff0c;助力开发者快速创新AI驱动的产品。在扩大至310亿美元的总潜在市…

Elasticsearch 基础速成 5 步跑通索引、文档、映射与查询

1 准备工作运行环境 curl -fsSL https://elastic.co/start-local | sh # 一条命令拉起本地单节点集群 # 浏览器打开 http://localhost:5601 进入 Kibana → DevTools → Console已有云端或 Serverless 集群可以直接跳到第 2 步。操作界面 以下所有请求均可在 Kibana → DevT…

语音表示学习论文总结

语音表示学习&#xff08;Speech Representation Learning&#xff09;是语音信号处理与机器学习交叉领域的核心技术&#xff0c;其目标是通过数据驱动的方式&#xff0c;从原始语音信号中自动提取具有判别性、鲁棒性和泛化能力的特征表示&#xff0c;以替代传统手工设计的声学…

国产芯+单北斗防爆终端:W5-D防爆智能手机,助力工业安全通信升级

在石油石化、煤矿开采、电力检修等高危行业&#xff0c;防爆设备的定位精度、通信可靠性及供应链安全性直接决定作业安全与生产效率。传统防爆手机依赖GPS定位与进口芯片&#xff0c;存在信号盲区、数据泄露风险及断供隐患。针对此&#xff0c;我们推出W5-D防爆智能终端&#x…

Kafka简述及学习课程

Kafka是由Apache软件基金会开发的一个开源流处理平台&#xff0c;由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统&#xff0c;它可以处理消费者在网站中的所有动作流数据。 这种动作&#xff08;网页浏览&#xff0c;搜索和其他用户的行动&#xff09;是在现…

BLE PHY 帧结构

BLE&#xff08;低功耗蓝牙&#xff09;的 PHY&#xff08;物理层&#xff09;帧结构根据传输模式&#xff08;广播、数据&#xff09;和 PHY 类型&#xff08;1M、2M、Coded PHY&#xff09;有所差异&#xff0c;但基本框架一致。以下是 BLE PHY 帧的通用结构及各部分含义&…

海外货运 app 系统架构分析

一、引言海外货运业务涉及众多复杂环节&#xff0c;从货物揽收、仓储管理、运输调度到最后交付&#xff0c;需要一个高效、稳定且功能全面的 APP 系统来协调各方资源&#xff0c;提升物流效率&#xff0c;保障货物安全准确送达。本文将对海外货运 APP 系统架构进行详细剖析&…

【硬件-笔试面试题】硬件/电子工程师,笔试面试题-52,(知识点:简单一阶低通滤波器的设计,RC滤波电路,截止频率)

目录 1、题目 2、解答 3、相关知识点 一、一阶低通滤波器的核心原理 1. 电路结构 2. 关键特性参数 二、一阶低通滤波器的设计步骤&#xff08;以 RC 电路为例&#xff09; 1. 确定截止频率\(f_c\) 2. 选择电阻 R 的阻值 3. 计算电容 C 的容值 4. 验证与调整 三、典…

防火墙安全实验

一、实验拓补图二、实验需求1、VLAN 2属于办公区;VLAN 3属于生产区2、办公区PC在工作日时间(周一至周五&#xff0c;早8到晚6)可以正常访OA Server&#xff0c;其他时间不允许3、办公区PC可以在任意时刻访问Web server4、生产区PC可以在任意时刻访问OA Server&#xff0c;但是不…

TOC-Transformer-LSTM-ABKDE,计算机一区算法龙卷风优化算法应用到概率区间预测!Matlab实现

TOC算法概述 文献《Tornado optimizer with Coriolis force: a novel bio-inspired meta-heuristic algorithm》核心解读&#xff1a;科里奥利力的龙卷风优化算法&#xff08;Tornado optimizer with Coriolis force&#xff0c;TOC&#xff09;对龙卷风循环过程的观察以及雷暴…

Adobe Illustrator安装下载教程(附安装包)Illustrator2025

文章目录一、Illustrator2025 下载链接二、Illustrator2025 安装步骤三、Illustrator 2025 软件介绍一、Illustrator2025 下载链接 夸克下载链接&#xff1a;https://pan.quark.cn/s/b990bac7107c 二、Illustrator2025 安装步骤 1.将安装包下载并解压&#xff0c;双击打开&am…