【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战

【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战

  • 1. 引言
  • 2. 推理后端的选择与对比
  • 3. 部署 API 推理服务
    • 3.1 创建 API 配置文件
    • 3.2 启动 API 服务
    • 3.3 探索交互式 API 文档
  • 4. 编写 Python 脚本进行批量调用
    • 4.1 准备工作
    • 4.2 批量调用脚本
    • 4.3 运行脚本并查看结果
  • 5. 总结

1. 引言

在前几篇教程中,我们已经掌握了如何使用 LLaMA-Factory 的 WebUI 和命令行,成功对 Qwen2.5-VL 多模态模型进行了 LoRA 微调与评估。现在,是时候将我们精心训练的模型投入实际应用了!将模型部署为标准化的 API 服务,是实现程序化调用、集成到现有业务流或构建交互式应用(如聊天机器人、自动化分析工具)的必经之路。

本教程将详细指导您如何使用 llamafactory-cli 将微调后的模型一键部署为兼容 OpenAI 格式的 API 服务。我们将深入探讨不同推理后端(huggingface, vllm, sglang)的优劣与选择,并提供一个完整的 Python 脚本,演示如何批量处理一个文件夹中的所有图片,实现自动化图文识别与描述。

2. 推理后端的选择与对比

在启动 API 服务之前,最关键的决策之一是选择合适的推理后端。LLaMA-Factory 在配置文件中通过 infer_backend 参数支持多种选项,它们在性能、易用性和资源消耗上各有侧重。

infer_backend 可选值:huggingface, vllm, sglang

下面是这三个主流后端的详细对比:

后端核心特点优点缺点安装命令
huggingface默认选项,简单易用- 无需额外安装,开箱即用。
- 兼容性最好,支持几乎所有模型。
- 适合调试或低并发场景。
- 性能较低,尤其在处理批量请求时,吞吐量不高。
- 显存利用效率一般。
pip install -e .[torch](已包含)
vllm高吞吐量推理引擎- 极高的吞吐量,通过 PagedAttention 等技术,能将 GPU 性能压榨到极致。
- 动态批处理,显著提升并发处理效率。
- 生产环境首选,是目前业界部署 LLM 的主流方案。
- 需要额外安装,可能存在兼容性问题。
- 对部分新模型的支持可能稍有延迟。
pip install vllm
sglang超高速度与复杂提示- 极快的推理速度,通过 RadixAttention 进一步优化。
- 原生支持复杂提示(如循环、条件判断),非常适合 Agent 等高级应用。
- 吞吐量与 vLLM 相当或更高。
- 相对较新,社区和生态仍在发展中。
- 同样需要额外安装,且可能对环境有特定要求。
pip install "sglang[srt_model]"

选择建议:

  • 初学者/快速验证:直接使用默认的 huggingface。
  • 生产部署/高并发场景:强烈推荐 vllm,它能最大化您的硬件投资回报。
  • 追求极致速度/Agent应用:可以尝试 sglang,它代表了推理引擎的前沿方向。

本教程将首先使用 huggingface 进行演示,因为其最为便捷。

3. 部署 API 推理服务

3.1 创建 API 配置文件

与训练类似,我们先在 my_configs/ 目录下创建一个 API 服务的配置文件。

my_configs/api_pokemon.yaml:

# model & adapter
model_name_or_path: Qwen/Qwen2.5-VL-3B-Instruct
adapter_name_or_path: saves/qwen2.5vl-3b-lora-pokemon/sft-cli# template
template: qwen2_vl# backend
infer_backend: huggingface  # 更改为 vllm 或 sglang 以使用不同后端# serving
trust_remote_code: true

说明:

  • model_name_or_path: 基础模型。
  • adapter_name_or_path: 关键!指向我们第三篇教程中训练好的 LoRA 适配器路径。
  • template: 必须与模型匹配。
  • infer_backend: 我们在此选择 huggingface 作为开始。

3.2 启动 API 服务

在 LLaMA-Factory 根目录下,执行以下命令:

# 激活环境
conda activate llama_factory# 启动 API 服务,指定端口为 8000
API_PORT=8000 llamafactory-cli api my_configs/api_pokemon.yaml

如果一切顺利,您将看到类似以下的输出,表明 API 服务已在 8000 端口成功启动:

INFO:     Started server process [xxxxx]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

3.3 探索交互式 API 文档

服务启动后,在浏览器中打开 http://0.0.0.0:8000/docs。

您会看到一个由 FastAPI 自动生成的交互式 API 文档(Swagger UI)。这里列出了所有可用的 API 端点。我们最关心的是 /v1/chat/completions,它完全兼容 OpenAI 的 API 格式,极大地便利了客户端的开发。

4. 编写 Python 脚本进行批量调用

4.1 准备工作

  1. 在 LLaMA-Factory 根目录下创建一个名为 batch_test_images 的文件夹。
  2. 向该文件夹中放入几张宝可梦的图片(例如 pikachu.png, bulbasaur.jpg 等)。

4.2 批量调用脚本

创建一个名为 batch_inference.py 的 Python 文件,并填入以下内容:

import os
import requests
import base64
import json
from tqdm import tqdm# --- 配置 ---
API_URL = "http://0.0.0.0:8000/v1/chat/completions"
IMAGE_FOLDER = "batch_test_images"
PROMPT = "Please describe this Pokémon's appearance, attributes, and characteristics in detail."
OUTPUT_FILE = "batch_results.json"def encode_image_to_base64(image_path):try:with open(image_path, "rb") as image_file:return base64.b64encode(image_file.read()).decode('utf-8')except IOError as e:print(f"Error opening or reading image file {image_path}: {e}")return Nonedef call_inference_api(prompt, base64_image):headers = {"Content-Type": "application/json"}payload = {"model": "qwen","messages": [{"role": "user","content": [{"type": "text","text": prompt},{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}]}],"max_tokens": 1024,"temperature": 0.7,"stream": False}try:response = requests.post(API_URL, headers=headers, json=payload, timeout=60)response.raise_for_status()return response.json()except requests.exceptions.RequestException as e:print(f"API call failed: {e}")return Nonedef main():if not os.path.isdir(IMAGE_FOLDER):print(f"Error: Image folder '{IMAGE_FOLDER}' not found.")returnall_results = []image_files = [f for f in os.listdir(IMAGE_FOLDER) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]if not image_files:print(f"No images found in '{IMAGE_FOLDER}'.")returnprint(f"Found {len(image_files)} images. Starting batch inference...")for image_name in tqdm(image_files, desc="Processing Images"):image_path = os.path.join(IMAGE_FOLDER, image_name)base64_image = encode_image_to_base64(image_path)if not base64_image:continueresult = call_inference_api(PROMPT, base64_image)if result and "choices" in result and len(result["choices"]) > 0:content = result["choices"][0]["message"]["content"]print(f"\n--- Result for {image_name} ---")print(content)all_results.append({"image": image_name,"prompt": PROMPT,"response": content})else:print(f"\nFailed to get a valid response for {image_name}.")all_results.append({"image": image_name,"prompt": PROMPT,"response": "Error or empty response from API."})with open(OUTPUT_FILE, 'w', encoding='utf-8') as f:json.dump(all_results, f, ensure_ascii=False, indent=4)print(f"\nBatch processing complete. All results saved to {OUTPUT_FILE}.")if __name__ == "__main__":main()

4.3 运行脚本并查看结果

  1. 确保 API 服务仍在运行。
  2. 在终端中执行脚本:
python batch_inference.py
  1. 脚本会显示一个进度条,并逐一打印出每张图片的处理结果。
  2. 执行完毕后,项目根目录下会生成一个 batch_results.json 文件,其中包含了所有图片的识别结果。

在这里插入图片描述

5. 总结

通过本教程,您已学会:

  • 将微调模型部署为 API 服务
  • 使用 OpenAI 风格 API 调用模型
  • 实现图像批量推理与结果存储

核心要点:

  • API 是桥梁:连接模型与实际应用。
  • 后端定性能:合理选择 huggingface/vllm/sglang。
  • 格式很重要:OpenAI 兼容格式,开发无缝衔接。
  • 批量处理显神威:脚本驱动,效率爆表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/911852.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/911852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++工厂模式的作用(工厂方法、Factory Method、Factory Pattern)

文章目录 代码示例工厂的作用1. 对象创建的封装 🏭2. 解耦客户端和具体类 🔗3. 统一的创建入口 🚪4. 隐藏实现细节 🎭 在这个项目中的具体体现总结 代码示例 https://gitee.com/arnold_s/my-learning-test/tree/master/20250610_…

9-C#修改任务管理的名称

C#修改任务管理的名称

Fisco Bcos学习 - 搭建第一个区块链网络

文章目录 一、前言二、环境准备三、安装依赖在 macOS 上安装依赖在 Ubuntu 上安装依赖在 CentOS 上安装依赖 四、创建操作目录并下载安装脚本五、搭建单群组 4 节点联盟链六、启动 FISCO BCOS 链七、检查进程八、检查日志输出 在数字化时代,区块链技术正逐渐成为推动…

可视化图解算法53:表达式求值

牛客网 面试笔试 TOP 101 1. 题目 描述 请写一个整数计算器,支持加减乘三种运算和括号。 数据范围:0≤∣s∣≤100,保证计算结果始终在整型范围内 要求:空间复杂度: O(n),时间复杂度 O(n) 示例1 输入…

小白成长之路-Nginx配置(二)

文章目录 一、localtion配置1.匹配规则2.匹配优先级3.配置案例 二、rewrite1、 语法2、 可写入字段3 配置案例4 if 指令5.sutoindex6. nginx配置中的常用变量 三、配置Nginx状态统计1.下载vts模块2.编译nginx 提示:以下是本篇文章正文内容,下面案例可供参…

Qt的第一个程序

Qt的第一个程序 1.hello world2.使用图形化拖拽方式3.使用C代码的方式3.1.头文件3.2.setText3.3.对象树 4.设计MyLabel5.乱码问题 🌟🌟hello,各位读者大大们你们好呀🌟🌟 🚀🚀系列专栏&#xff…

图书数据接口

基本说明: 接口地址:http://data.isbn.work/openApi/getInfoByIsbn?isbn{isbn}&appKey{appkey}返回格式:json请求方式:get请求示例:http://data.isbn.work/openApi/getInfoByIsbn?isbn9787513159074&appKey…

MongoDB原理

目录 一、概念 二、架构 2.1 逻辑结构 2.2 数据模型 2.3 存储引擎:WiredTiger 三、事务 一、概念 MongoDB是文档数据库,基本存储单元是 文档(Document),以BSON格式(一种类json的二进制形式&#xff…

《解码音频:从基础到未来的听觉探索》

音频:开启声音世界的大门 在生活的每一个角落,音频如影随形,编织出丰富多彩的听觉体验。清晨,第一缕阳光尚未完全照进房间,手机里温柔的闹钟铃声,将我们从睡梦中轻轻唤醒,开启活力满满的一天。通…

web安全之h2注入系统学习

起初是在N1 Junior 2025 上面碰到一题,考点是h2的sql注入。由于之前没有见过,趁此机会系统学习一番 实验代码 public class H2Inject {public static void main(String[] args) throws Exception{JdbcDataSource dataSource new JdbcDataSource();dataS…

AWS认证系列:考点解析 - cloud trail,cloud watch,aws config

🎯一句话总览: 服务名类比/角色主要功能CloudTrail监控摄像头录像回放记录“谁在什么时候做了什么操作”CloudWatch护士测体温 护士喊医生实时监控系统状态,并能报警/自动应对AWS Config保安巡逻 记录资产变更历史记录 AWS 资源的“配置状…

Java八股文——数据结构「数据结构篇」

了解哪些数据结构? 面试官您好,我了解并使用过多种数据结构。在我的理解中,数据结构可以分为几个大的类别,每一类都有其独特的优势和适用场景。 1. 线性结构 (Linear Structures) 这类结构的特点是数据元素之间存在一对一的线性…

C#测试调用EPPlus根据批注设置excel单元格内容

EPPlus也是常用的Excel文件操作库,但不同于ClosedXML,使用EPPlus前需要设置授权信息,商业应用需要设置商业授权,个人使用或非商业应用也需要设置授权(测试的时候只需设置全名,保存excel文件时会保存到文件详…

windows本地搭建skywalking, 线程池中traceId不丢失

1.从官网下载9.0.0版本 Downloads | Apache SkyWalking 其它历史版本的 下载地址 Index of /dist/skywalking 这个页面 可以下载 apm服务: apache-skywalking-apm-9.0.0.tar.gz agent的包: apache-skywalking-java-agent-9.0.0.tgz 2.解压后, (看情况去config路径下 appli…

多模态大语言模型arxiv论文略读(135)

Agent S: An Open Agentic Framework that Uses Computers Like a Human ➡️ 论文标题:Agent S: An Open Agentic Framework that Uses Computers Like a Human ➡️ 论文作者:Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric…

wpa_supplicant连接到了路由,但是 udhcpc会分配到不同网段的ip,路由器ip为192.168.0网段,板子分配ip为192.168.1的网段

wpa_supplicant连接到了路由,但是 udhcpc会分配到不同网段的ip,路由器ip为192.168.0网段,板子分配ip为192.168.1的网段 你提到的情况: 使用 wpa_supplicant 成功连接到路由器; 然后通过 udhcpc(DHCP客户端&#xff09…

[Hestia]开源网络服务器控制面板,快速、可靠、开源

测评介绍 本期测评试用一下Hestia这款面板。Hestia是一个由国际社区支持开发的开源项目,2019年正式发布,目前已积累1.1万余次代码提交,几乎每周都有十多次的代码提交,更新热度很高。仅支持比较新的debian和ubuntu,对于…

Windows 安装 Redis8.0.2

1.下载 Releases redis-windows/redis-windowshttps://github.com/redis-windows/redis-windows/releases 下载后直接解压到想要的安装目录就行了,启动Redis直接双击 redis-server.exe 文件就行了,Redis启动后双击 redis-cli.exe 就可以直接连接到Redi…

GitHub中openmmlab和Detectron2的区别

MMDetection 和 Detectron2 都是计算机视觉领域中流行的开源目标检测框架,它们有许多相似之处,但也存在一些关键差异。以下是两者的主要区别: 1. 开发团队与社区 MMDetection 由中国开源组织 OpenMMLab 开发维护,社区以中文用户为…

开疆智能CCLinkIE转ModbusTCP网关连接施耐德TCP从站配置案例

本案例是三菱PLC通过CCLinkIE转ModbusTCP网关连接施耐德Modicon M262 Logic/Motion Controller的配置案例 配置方法: 首先设置Modicon M262 Logic/Motion Controller Modbus TCP 从站设备 I/O 映射选项卡 I/O 以如下方式从主站视角映射到 Modbus 寄存器&#xff1…