列举开源的模型和推理框架

当然可以!下面是一个系统性的列表,按 开源大模型(LLM)推理框架 两大类列出,并配上简要说明。


🧠 一、开源大语言模型(LLMs)

名称发布者语言能力模型大小特点
LLaMA 2 / 3Meta英文强,少量多语7B/13B/70B非商业使用需申请;社区生态广泛
Qwen / Qwen1.5阿里云通义千问中文强,兼顾英文0.5B ~ 72B中文能力极强,Qwen1.5 开源,支持多模态
Baichuan 2百川智能中文优化7B / 13B商业/研究可用,API 接口友好
InternLM / InternLM2商汤 + 上交中文优,推理快7B / 20BInternLM2 引入 MoE,推理效率高
Yi01.AI(王慧文)中文 + 英文6B / 34BYi-34B 是当前顶级中文模型之一
Mistral / MixtralMistral.ai(法国)英语主导7B / 12.9B (MoE)极高性价比,推理快,非常热门
GemmaGoogle英语强2B / 7B使用 Apache 2 许可,研究友好
Phi-2 / Phi-3微软小模型2.7B / 4.2B教育、推理快,适合嵌入式
OpenChat / ChatGLM3OpenBMB / 智谱AI中文对话优化6B / 32BChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架(Inference Engines)

名称语言/实现支持硬件特点
vLLMPython / CUDA / TritonGPU(A10、A100、4090 等)高并发低延迟,生产级部署首选
llama.cppC++CPU / Apple M 系列 / GPU轻量、支持量化 .gguf 格式,能跑在树莓派上
OllamaRust / C++ 封装CPU / M 系列 GPUllama.cpp 的高级封装,一行命令启动
TGI (Text Generation Inference)HuggingFaceGPUTransformers 官方部署工具,支持 Batching、CUDA
FasterTransformerNVIDIAGPU强调 Transformer 高效并行,支持 INT8/FP16
TensorRT-LLMNVIDIAGPU (A100/H100)超高性能推理,适合部署 LLaMA-3 等模型
MLC LLMTVM 项目CPU / GPU / iOS / Android编译到浏览器、iPhone、本地设备
DeepSpeed-MIIMicrosoftGPU深度优化并行推理(基于 DeepSpeed)
Exllama / Exllamav2C++/CUDAGPU适用于量化模型(4-bit 推理超快)
ctransformersPython 绑定 llama.cppCPU / GPU在 Python 中直接跑 gguf 模型,适合小项目

📌 补充:工具生态

工具用途
transformersHuggingFace 模型加载和训练工具
AutoGPTQGPTQ 量化工具,适配 vLLM、Transformers
text-generation-webuiWebUI 管理/测试各种本地模型(支持 gguf / HF 模型)
LMDeploy商汤开发的 LLM 部署工具,支持 InternLM 系列
LangChain / LlamaIndex构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择:

你要做什么?推荐模型 + 推理框架
本地跑中文对话Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务LLaMA3/Qwen + vLLM
快速试验不同模型text-generation-webui + GGUF 模型
移动端部署MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率vLLM(PagedAttention 优化)

如果你告诉我你电脑或服务器的配置(CPU/GPU/内存),我可以给你推荐最适合你机器的模型+框架组合。是否需要?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86994.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入讲解一下 Nomic AI 的 GPT4All 这个项目

我们来深入讲解一下 Nomic AI 的 GPT4All 这个项目。 这是一个非常优秀和流行的开源项目,我会从**“它是什么”、“为什么它很重要”、“项目架构和源码结构”以及“如何使用”**这几个方面为你全面剖析。 一、项目概述 (Project Overview) 简单来说,…

力扣HOT100之技巧:287. 寻找重复数

这道题真的是中等题吗?我请问呢??我怎么觉得是困难题呢? 这道题的思路太难想了,想不出来,直接去看的这位大佬的题解,写得很清楚。 这道题可以将其转化为环形链表问题,可是为什么只要…

QT log4qt 无法生成日志到中文的路径中的解决方案

一.使用log4qt时,应用程序安装在带有中文路径下,导致无法生成日志到安装目录中? 问题描述:如下的配置文件,log4j.appender.File.File 后面跟随的路径是当前路径,你可能觉得自己的日志能够生成在当前路径中,如果你试着用自己的程序双击启动一个文件时,你会发现日志生成在…

让 Deepseek 写电器电费计算器小程序

微信小程序版电费计算器 以下是一个去掉"电器名称"后的微信小程序电费计算器代码,包含所有必要文件: 1. app.json (全局配置) {"pages": ["pages/index/index"],"window": {"backgroundColor": &q…

第二部分-静态路由实验

目录 一、什么是路由? 1.1.定义 1.2.路由作用 1.3.路由类型 1.3.1.直连路由 1.3.2.静态路由 1.3.3.动态路由 1.3.4.路由表 1.5.路由器的匹配原则 1.6.路由配置 1.6.1.静态路由配置 1.6.2.动态路由配置 二、实验 2.1.静态路由 2.1.1.实验拓扑 2.1.2.实验过程 2.2.缺省…

Could not initialize Logback logging from classpath:logback-spring.xml

jdk21、springboot 3.2.12启动报错找不到logback.xml Logging system failed to initialize using configuration from classpath:logback-spring.xml java.lang.IllegalStateException: Could not initialize Logback logging from classpath:logback-spring.xmlat org.sprin…

NORA:一个用于具身任务的小型开源通才视觉-语言-动作模型

25年4月来自新加坡技术和设计大学的论文“NORA: a Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks”。 现有的视觉-语言-动作 (VLA) 模型在零样本场景中展现出优异的性能,展现出令人印象深刻的任务执行和推理能力。然而&#xff…

在Ubuntu中使用Apache2部署项目

1. 安装Apache2 sudo apt update sudo apt install apache2 -y安装完成后,Apache会自动启动,通过浏览器访问 http://服务器IP 应看到默认的Apache欢迎页。 2. 配置防火墙(UFW) sudo ufw allow Apache # 允许Apache通过防火墙 …

【QT系统相关】QT文件

目录 1. Qt 文件概述 2. 输入输出设备类 3 文件读写类 读取文件内容 写文件 实现一个简单的记事本 4. 文件和目录信息类 QT专栏:QT_uyeonashi的博客-CSDN博客 1. Qt 文件概述 文件操作是应用程序必不可少的部分。Qt 作为一个通用开发库,提供了跨…

爱普生RX8111CE实时时钟模块在汽车防盗系统中的应用

在汽车智能化与电子化的发展浪潮中,汽车防盗系统是现代汽车安全的重要组成部分,其核心功能是通过监测车辆状态并及时发出警报来防止车辆被盗或被非法操作。爱普生RX8111CE实时时钟模块凭借其高精度、低功耗和丰富的功能,能够为汽车防盗系统提…

SQL注入攻击原理与防御全解析

目录 一、引言 二、SQL 注入原理 2.1 SQL 注入的概念 2.2 SQL 注入产生的原因 2.3 SQL 注入的本质 2.4 SQL 注入的关键点 三、SQL 注入的实现方法 3.1 常见的 SQL 注入场景 3.2 不同类型的 SQL 注入方式 3.3 SQL 注入的一般流程 四、SQL 注入的危害 4.1 数据泄露 …

写实交互数字人:赋能消防知识科普,点亮智能交互讲解新未来

在数字化浪潮席卷全球的今日,科技创新以前所未有的速度重塑着我们的生活方式与产业格局。消防知识科普,作为守护生命财产安全的关键防线,也亟待借力新兴技术实现变革与突破。深声科技以其行业领先的 2D 写实交互数字人技术,为消防…

用 HTML、CSS 和 JavaScript 实现五子棋人机对战游戏

引言 在 Web 开发的世界里,通过 HTML、CSS 和 JavaScript 可以创造出各种各样有趣的互动游戏。今天,我们将深入探讨如何实现一个简单而又富有挑战性的五子棋人机对战游戏。这个游戏不仅能让你重温经典的五子棋玩法,还能通过 AI 对战功能给你…

【QT】自动更新库QSimpleUpdater使用实例封装

【QT】自动更新库QSimpleUpdater使用实例封装 QSimpleUpdater 库信号介绍appcastDownloaded 信号downloadFinished信号概括 参数介绍 实例编写 QSimpleUpdater 库 QSimpleUpdater是一个用于QT的开源自动更新库,它可以帮助开发者实现应用程序的版本检查和自动更新功…

Nginx、CDN、 DNS的关系解析

文章目录 Nginx 与 CDN 的关系1. 角色定位2. 协作方式3. 自建 CDN vs. 第三方 CDN Nginx 与 DNS 的关系1. 角色定位2. 协作方式3. 性能优化 CDN 与 DNS 的关系1. 角色定位2. 协作方式3. 高级 DNS 技术 三者结合的典型架构总结 Nginx、CDN 和 DNS 是现代网络架构中的三个关键组件…

PH热榜 | 2025-06-13

1. Flowstep 标语:借助人工智能,瞬间设计出美观的用户界面。 介绍:Flowstep 是您的 AI 设计助手,将简单的文字提示转化为用户界面设计、线框图和流程图。它能加速您的工作流程,让您轻松迭代,内置建议帮助…

Spectacular AI Gemini2 跑通实时建图

参考链接:Spectacular AI 硬件设备 gemini2 测试了gemini335没成功 修改record.cpp 仓库链接:sdk 读取Timu_cam ros2 run tf2_ros tf2_echo imu坐标系(加速度计和陀螺仪都可以,两者变换为单位阵)camera_rgb_optic…

简析MDM在餐饮设备中的部署与应用

引言:科技驱动餐饮运营升级 在竞争激烈的餐饮行业,科技已成为提升服务质量和运营效率的关键。从自助点餐机、数字菜单牌,到移动收银系统,智能设备已经深入餐厅的日常运营。然而,随着设备数量和种类的增加,…

RocketMQ总结

深入理解RocketMQ三高架构设计 高性能 顺序写磁盘 mmap 零拷贝异步刷盘 刷盘策略可配置轻量网络协议 长连接复用 高可用 主从复制机制、controller、dledger集群NameServer 多副本无状态客户端自动切换 Broker消息刷盘机制保障可靠性 高可扩展性 Broker 水平扩展Consu…

vue3+tdesign实现明暗主题切换

很多项目中有些会涉及到明暗主题切换的功能,今天就来梳理一下有关这方面的具体实现步骤和使用到的方法,本篇文章使用到的组件是tdesign,利用部分案例,主要阐述明暗主题切换的技术原理和实现步骤,仅供参考。 目录 一、…