全面指南:Xinference大模型推理框架的部署与使用

全面指南:Xinference大模型推理框架的部署与使用

Xinference(Xorbits Inference)是一个功能强大的分布式推理框架,专为简化各种AI模型的部署和管理而设计。本文将详细介绍Xinference的核心特性、版本演进,并提供多种部署方式的详细指南,包括本地部署、Docker-Compose部署以及分布式集群部署,同时涵盖GPU和CPU环境下的配置差异。最后,我们将通过实际使用教程验证部署结果。

一、Xinference简介与版本演进

Xinference是由Xorbits团队开发的开源推理框架,旨在为研究者和开发者提供简单高效的大模型部署方案。它支持多种模型类型,包括大语言模型(LLM)、语音识别模型、多模态模型等,并提供了丰富的接口和工具链。

核心特性

  • 多模型支持:内置100+预训练模型,涵盖Llama3、ChatGLM、Whisper等主流模型
  • 分布式推理:支持在多台机器上运行vLLM进行高效推理
  • 异构硬件加速:通过ggml同时利用GPU与CPU资源,降低延迟提高吞吐
  • 多种接口:提供RESTful API(兼容OpenAI)、RPC、命令行和Web UI等多种交互方式
  • 开放生态:与LangChain、LlamaIndex、Dify等流行工具无缝集成

版本演进

截至2025年4月,Xinference最新版本为v1.4.1,带来了多项重要更新:

  1. vLLM分布式推理:支持跨机器部署vLLM引擎
  2. SGLang引擎增强:新增视觉模型支持,GPTQ量化推理速度大幅提升
  3. 新增模型支持
    • Qwen2.5-VL 32B多模态模型
    • Fin-R1金融领域专用模型
    • Deepseek-VL2视觉语言模型
  4. 功能优化
    • 新增n_worker校验机制
    • 优化GPTQ处理,用gptqmodel取代auto-gptq
    • Deepseek-V3支持Function Calling

历史版本中,v0.15.x系列主要完善了基础功能,v1.0.0开始引入分布式支持,后续版本持续优化性能和扩展模型库。

二、Xinference部署指南

Xinference支持多种部署方式,可根据硬件条件和应用场景选择最适合的方案。下面将分别介绍本地部署、Docker-Compose部署和分布式集群部署的详细步骤。

1. 本地部署

CPU环境部署

对于仅使用CPU的环境,安装相对简单:

# 安装基础包
pip install "xinference[all]"# 启动服务(指定模型缓存路径)
XINFERENCE_HOME=/path/to/model_cache xinference-local --host 0.0.0.0 --port 9997

如果没有GPU,Xinference会自动使用CPU进行推理,但性能会有所下降。

GPU环境部署

对于NVIDIA GPU环境,需要额外安装CUDA相关依赖:

# 安装带GPU支持的Xinference
pip install "xinference[transformers,vllm,sglang]"# 验证PyTorch CUDA是否可用
python -c "import torch; print(torch.cuda.is_available())"# 启动服务(使用全部GPU)
xinference-local --host 0.0.0.0 --port 9997

如果输出True,则表示PyTorch能正常使用GPU;否则需要重新安装PyTorch的GPU版本。

模型源配置

在国内环境,建议使用ModelScope作为模型源,避免HuggingFace访问问题:

XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 --port 9997

2. Docker-Compose部署

对于生产环境,推荐使用Docker部署,便于管理和隔离。以下是GPU版本的Docker部署示例:

单节点Docker部署
docker run -d --restart=always --name=xinference \-v /opt/xinference:/opt/xinference \-e XINFERENCE_HOME=/opt/xinference \-e XINFERENCE_MODEL_SRC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/80951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

next.js实现项目搭建

一、创建 Next.js 项目的步骤 1、安装 npx create-next-applatest # 或 yarn create next-app # 或 pnpm create next-app 按照交互式提示配置你的项目: 输入项目名称 选择是否使用 TypeScript 选择是否启用 ESLint 选择是否启用 Tailwind CSS 选择是否使用 s…

PHP基础知识

【学习资料】 视频: https://www.bilibili.com/video/BV1Xh411S7G1?spm_id_from333.788.videopod.episodes&vd_sourcebe26b82da70367069ab00d6db4f4ffc0 文档:https://www.runoob.com/php/php-tutorial.html 目录 1,PHP是什么2&#xff…

国内MCP服务平台推荐 AIbase推出MCP服务器客户端商店

在当今数字化时代,人工智能(AI)技术正以前所未有的速度发展,不断改变着我们的生活和工作方式。2025年,AI领域迎来了一项重要的技术进展——MCP(Model Context Protocol,模型上下文协议)的广泛应用。这一技术…

在文件检索方面doris和elasticsearch的区别

apache Doris 与 Elasticsearch 在文件检索领域的差异源于技术架构与定位目标的本质区别,以下从核心维度对比分析二者的技术特性: 一、 ‌架构设计与定位差异‌ ‌维度‌‌Apache Doris‌‌Elasticsearch‌‌核心架构‌分布式 MPP 列式分析引擎,面向 OLAP 优化分布式倒排索…

鸿蒙OSUniApp打造多功能图表展示组件 #三方框架 #Uniapp

使用UniApp打造多功能图表展示组件 在当前移动应用开发领域,数据可视化已成为不可或缺的一部分。无论是展示销售数据、用户增长趋势还是其他业务指标,一个优秀的图表组件都能有效提升用户体验。UniApp作为一款跨平台开发框架,如何在其中实现…

AI Agent开发第67课-彻底消除RAG知识库幻觉-文档分块全技巧(1)

开篇 在上篇《AI Agent开发第66课-彻底消除RAG知识库幻觉-带推理的RAG》放出后,网友们反响很大。有得告诉我:原来还有Rewrite这么一招?早知道这一招很多之前的一些遗留问题都能解决了。不过在上一篇结尾我已经提到了,要真正解决一个AI Agent在响应时产生的幻觉我们用提示语…

NHANES指标推荐:OBS

文章题目:Association between oxidative balance score and all-cause and cancer-specific mortality among cancer survivors DOI:10.3389/fimmu.2025.1541675 中文标题:癌症幸存者氧化平衡评分与全因死亡率和癌症特异性死亡率之间的关联 …

主流快递查询API横向对比:快递100快递鸟菜鸟物流接口差异解析

主流快递查询API横向对比:快递100/快递鸟/菜鸟物流接口差异解析 一、核心功能与适用范围 菜鸟API 核心功能:物流信息查询、电子面单打印、智能仓储管理、跨境物流服务,整合阿里生态资源(如淘宝、天猫订单直接对接)。…

解决:npm install报错,reason: certificate has expired

目录 1. 问题分析2. 问题解决2.1 查看配置的镜像2.2 修改镜像源 种一棵树最好的时间是10年前,其次就是现在,加油! --by蜡笔小柯南 1. 问题分析 启动前…

缓存(5):常见 缓存数据淘汰算法/缓存清空策略

主要的三种缓存数据淘汰算法 FIFO(first in first out):先进先出策略,最先进入缓存的数据在缓存空间不够的情况下(超出最大元素限制)会被优先被清除掉,以腾出新的空间接受新的数据。策略算法主要比较缓存元素的创建时…

Spring框架的事务管理

引言 在企业级应用开发中,事务管理是一个至关重要的环节,它确保了数据的一致性和完整性。Spring 框架为我们提供了强大而灵活的事务管理功能,能够帮助开发者更轻松地处理复杂的事务场景。本文将深入探讨 Spring 框架的事务管理,包…

FPGA: UltraScale+ bitslip实现(ISERDESE3)

收获 一晃五年~ 五年前那个夏夜,我对着泛蓝的屏幕敲下《给十年后的自己》,在2020年的疫情迷雾中编织着对未来的想象。此刻回望,第四届集创赛的参赛编号仍清晰如昨,而那个在家熬夜焊电路板的"不眠者",现在…

用 wireshark 解密 SIP over TLS 以及 SRTP 解密

--todo 有空再搞 MicroSIP 向 FreeSWITCH 注册&#xff0c;transport 设置为 tls 同时 Media Encryption 设置为强制 FreeSWITCH 做一个这样的路由&#xff1a; <action application"set" data"rtp_secure_mediaoptional"/> <action applicat…

Delphi 12.3调用Chrome/edge内核实现DEMO源码

DELPHI使用调用Chrome/Edge内核浏览器&#xff0c;虽然旧的WebBrowser也还可以用&#xff0c;但大势所趋&#xff0c;新版的已经不需要使用第三方的组件了&#xff0c;算是全内置的开发了&#xff0c;不废话 Unit1 源码 Form 源码 unit Unit1;interfaceusesWinapi.Windows, W…

快速搭建一个electron-vite项目

1. 初始化项目 在命令行中运行以下命令 npm create quick-start/electronlatest也可以通过附加命令行选项直接指定项目名称和你想要使用的模版。例如&#xff0c;要构建一个 Electron Vue 项目&#xff0c;运行: # npm 7&#xff0c;需要添加额外的 --&#xff1a; npm cre…

26考研 | 王道 | 计算机组成原理 | 一、计算机系统概述

26考研 | 王道 | 计算机组成原理 | 一、计算机系统概述 文章目录 26考研 | 王道 | 计算机组成原理 | 一、计算机系统概述1.1 计算机的发展1.2 计算机硬件和软件1.2.1 计算机硬件的基本组成1.2.2 各个硬件的工作原理1.2.3 计算机软件1.2.4 计算机系统的层次结构1.2.5 计算机系统…

01-数据结构概述和时间空间复杂度

数据结构概述和时间空间复杂度 1. 什么是数据结构 数据结构&#xff08;Data Structure&#xff09;是计算机存储、组织数据的方式&#xff0c;指相互之间存在一种或多种特定关系的数据元素的集合。 2. 什么是算法 算法&#xff08;Algorithm&#xff09;就是定义良好的计算…

大数据架构选型全景指南:核心架构对比与实战案例 解析

目录 大数据架构选型全景指南&#xff1a;核心架构对比与实战案例解析1. 主流架构全景概览1.1 核心架构类型1.2 关键选型维度 2. 架构对比与选型矩阵2.1 主流架构对比表2.2 选型决策树 3. 案例分析与实现案例1&#xff1a;电商实时推荐系统&#xff08;Lambda架构&#xff09;案…

(51单片机)LCD显示红外遥控相关数字(Delay延时函数)(LCD1602教程)(Int0和Timer0外部中断教程)(IR红外遥控模块教程)

前言&#xff1a; 本次Timer0模块改装了一下&#xff0c;注意&#xff01;&#xff01;&#xff01;今天只是简单的实现一下&#xff0c;明天用次功能显示遥控密码锁 演示视频&#xff1a; 在审核 源代码&#xff1a; 如上图将9个文放在Keli5 中即可&#xff0c;然后烧录在…

网络实验-防火墙双机热备份

实验目的 了解防火墙双机热备份配置&#xff0c;提供部署防火墙可靠性。 网络拓扑 左侧为trust域&#xff0c;右侧为untrust域。防火墙之间配置双机热备份。 配置内容 master VRRP 由于防火墙是基于会话表匹配回程流量&#xff0c;流量去向和回程必须通过同一个防火墙。…