MiniCPM-V4.0开源并上线魔乐社区,多模态能力进化,手机可用,还有最全CookBook!

今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,面壁团队也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。

该模型已同步上线魔乐社区,欢迎下载体验! 

🔗https://modelers.cn/models/Modelers_Park/MiniCPM-V-4

话不多说,先来看看 MiniCPM-V 4.0 在手机上运行的惊艳效果。作为最适合在手机上运行的模型尺寸,MiniCPM-V 4.0 以 4B 的参数量真正做到了稳定运行、快速响应,且在手机、平板等设备长时间连续使用无发热、无卡顿。

目前,可支持 MiniCPM-V 4.0 本地部署的IOS App已开源,开发者可在 CookBook 中下载使用。

CookBook: 🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook

4B 参数,综合性能达到同级SOTA

作为端侧多模态模型的新晋王者,MiniCPM-V 4.0 在 4B 参数量级的 PK 中,在单图、多图、视频理解等多模态能力上已达到同级 SOTA 级别。在 OpenCompass、OCRBench、MathVista、MMVet、MMBench V1.1、MMStar、AI2D、HallusionBench 等评测基准测试中,MiniCPM-V 4.0 综合性能均为同级最高。

其中,在 OpenCompass 测评中,MiniCPM-V 4.0 综合性能超过 Qwen2.5-VL 3B 模型和 InternVL2.5 4B 模型,甚至可比肩 GPT-4.1-mini、 Claude 3.5 Sonnet。相较于上一代 MiniCPM-V 2.6 的 8B 模型,MiniCPM-V 4.0 在 模型参数减半 的同时,多模态能力也实现了显著提升。

Image

总的来说,MiniCPM-V 4.0 再一次验证了大模型“知识密度”定律 Densing Law,也再一次刷新了端侧多模态模型的能力上限

低显存+快响应,打造端侧丝滑运行的模型标杆 

之所以能在手机、PC 等端侧丝滑、流畅的完成实时视频理解、图像理解等任务,除了 MiniCPM-V 4.0 出色的效果以外,也得益于独特的模型结构设计,实现了同尺寸模型下可最快的首响时间与更低的显存占用。

经在 Apple M4 Metal 上测试,正常运行 MiniCPM-V 4.0 模型,显存占用仅为 3.33 GB比 Qwen2.5-VL 3B、Gemma 3-4B更低

Image

同样,在 Apple M4 Metal 上进行图片理解测试中,MiniCPM-V 4.0 模型借助 ANE + Metal 辅助加速,让首次响应时间大幅缩短,实现了同尺寸最佳,且随着输入的图片分辨率提高,首响时间快的优势更为明显。

Image

此外,面壁团队也利用 2 张 4090 GPU 对模型并发量、吞吐量进行了测试。实验结果显示,在算力资源可支持的范围内,随着并发量的增加,MiniCPM-V 4.0 模型总吞吐量优势更为明显。例如在 256 并发用户需求下,MiniCPM-V 4.0 吞吐量高达 13856 tokens/s,远超 Qwen2.5-VL 的 7153 tokens/s、Gemma 3 的 7607 tokens/s。

Image

CookBook 上线,面向各类场景轻松部署 

为了广大的开发者群体能够方便部署并使用 MiniCPM-V 4.0 模型,面壁团队与上海期智研究院首次系统开源了推理部署工具 MiniCPM-V CookBook,面向多种场景实现开箱即用的轻量部署,并提供详尽文档以降低部署门槛、加速落地。

Image

MiniCPM-V CookBook 在框架兼容性上做到了“三端并举”,再次扩大了 MiniCPM-V 模型的用户群体。面向 个人开发者,可通过 llama.cpp 和 Ollama 等框架,在手机、平板、PC 等端侧实现部署,并完成图像问答或简易多模态实验;面对 企业侧的高并发场景,MiniCPM-V 与 vLLM、SGLang 高并发服务框架深度集成,获得高吞吐、低时延的稳定服务;而 学术与算法研究者 则可以基于 Hugging Face Transformers 等继续做二次开发、Prompt 注入和量化对比实验,快速验证新想法、分享复现实验。

同时,MiniCPM-V CookBook 不仅给出一键启动的 FastAPI 私有 Web-Demo,方便快速搭建 RAG 知识库或内部服务;还内置 GGUF、BNB 及 AutoAWQ 多条量化流水线,结合量化模型实现低资源高效部署;同时提供完整 iOS 示例,使端侧设备如 iPhone 和 Pad 上的实时多模态交互依旧保持“丝滑”体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/94348.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/94348.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FCT/ATE/ICT通用测试上位机软件

在当今智能制造与电子产品快速迭代的背景下,功能测试(FCT)已成为确保产品质量的关键环节。然而,传统的测试上位机往往存在扩展困难、功能固化、二次开发成本高等问题。为此,我们提出一款模块化、可扩展、可脚本化的 FC…

IndexTTS介绍与部署(B站开源的工业级语音合成模型)

语音合成效果非常好,可作为自己日常文本转语音使用工具! 软件介绍 IndexTTS 是由哔哩哔哩(B 站)开源的工业级可控高效零样本文本转语音(TTS)系统,基于 XTTS 和 Tortoise 构建,采用 …

uniApp对接实人认证

前端代码部分<template><view class"wrap"><view class"box"><view class"item flex-row align-items-center space-between"><view class"name"><text style"color:#FF4D4D">*</te…

pytest 并发执行用例(基于受限的测试资源)

概要 本文主要介绍了如何在测试资源&#xff08;被测对象&#xff09;受限的情况下&#xff0c;使用 pytest 进行并发测试以减少总体测试时间的方法和过程。 背景 在软件开发过程中&#xff0c;我们通常使用测试用例来持续保证软件的质量&#xff08;例如&#xff0c;确保关…

结构化智能编程:用树形向量存储重构AI代码理解范式

结构化智能编程:用树形向量存储重构AI代码理解范式 告别暴力embedding,通过分层存储策略让AI精准理解百万行代码库 在AI编程助手日益普及的今天,开发者面临一个新的困境:当项目规模达到数万甚至数百万行代码时,传统的暴力向量化方法不仅效率低下,而且往往导致AI理解偏差。…

GPT5 / 深度研究功能 无法触发

具体表现为&#xff1a; 1.没有GPT5标识2.回答是GPT43.无法触发深度研究功能请问如何解决&#xff1f;

一键脚本:自动安装 Nginx + Certbot + HTTPS(Let‘s Encrypt)

创建脚本文件​&#xff1a; vi setup_nginx_https.sh脚本内容&#xff1a; #!/bin/bash# # 一键安装 Nginx Certbot HTTPS (CentOS 7) # 功能&#xff1a;自动安装 Nginx、Certbot&#xff0c;配置 HTTPS&#xff0c;自动续期 # 使用方法&#xff1a;./setup_nginx_https.s…

SpringAI与MCP

MCP是什么&#xff1f;MCP 服务 代理服务&#xff08;Proxy&#xff09; 标准化接口 自动化适配MCP 的目的&#xff0c;就是让 AI 应用不再“为每个工具定制对接 ”&#xff0c;而是像使用 USB-C 一样&#xff0c;“插上即用”任何外部工具。没mcp之前不同的工具入参和出参千…

Coze用户退出登录流程分析-后端源码

前言 本文将深入分析Coze Studio项目的用户退出登录功能后端实现&#xff0c;通过源码解读来理解整个退出登录流程的架构设计和技术实现。退出登录作为用户认证系统的重要组成部分&#xff0c;主要负责清理用户会话状态&#xff0c;确保用户账户安全。 退出登录功能虽然相对简单…

【应急响应工具教程】Unix/Linux 轻量级工具集Busybox

1、工具简介BusyBox 是一个将常用 Unix/Linux 工具打包在单一可执行文件中的轻量级工具集&#xff0c;被称为 “嵌入式 Linux 的瑞士军刀”。 它将多个精简版的命令行工具&#xff08;如 ls、cat、cp、mv、grep 等&#xff09;集成到一个二进制文件中&#xff0c;并通过不同的调…

【React】案例:B站评论

目录 一、核心功能实现 二、id处理和时间处理 三、清空内容并重新聚焦 一、核心功能实现 1.获取评论内容&#xff1a;表单受控绑定 2.点击发布按钮发布评论 二、id处理和时间处理 1.rpid要求一个唯一的随机数id -uuid库 npm install uuid 使用方法&#xff1a;import {v4 as…

sqlite创建数据库,创建表,插入数据,查询数据的C++ demo

sqlite的API可参考&#xff1a;SQLite – C/C | 菜鸟教程 sqlite的官网API可参考&#xff1a;Introduction #include <iostream> #include <sqlite3.h> #include <string>// 回调函数&#xff0c;用于查询结果的输出 static int callback(void* data, int …

部分CSS笔试题讲解

1. box-sizing: border-box 的作用问题&#xff1a; 默认的 CSS 盒模型 (content-box) 中&#xff0c;元素的 width 和 height 属性只指定了内容区域的尺寸。如果你给元素添加了 padding 或 border&#xff0c;这些值会被加在 width/height 之上&#xff0c;导致元素的实际占用…

雅菲奥朗SRE知识墙分享(二):『SRE对智能运维的升级模型』

SRE深度结合AI创新&#xff0c;雅菲奥朗专家刘峰老师总结了近期人工智能运维领域的突破&#xff0c;合计以下15个关键点:一、领域1&#xff1a;Dev&Ops 深度融合• 关键点1. 组织&#xff1a;Google “SREScale” 最新论文提出「单一故障域 单一 SRE 小组」原则&#xff0…

前端 Promise 全面深入解析

一、Promise基础概念 1、什么是Promise? Promise是一个表示异步操作最终完成或失败的对象。它允许你为异步操作的成功结果和失败原因分别绑定相应的处理方法。 2、Promise的三种状态 pending(等待中): 初始状态,既不是成功,也不是失败 fulfilled(已成功): 操作成功完…

【LIN】2.LIN总线通信机制深度解析:主从架构、五种帧类型与动态调度策略

参考文章&#xff1a; Lin总线通信在STM32作为主机代码以及从机程序 基于STM32的LIN总线的实现 STM32F0-LIN总线通讯程序代码 主从调试OK LIN协议通信DEMO及源码剖析 前文已讲解关于LIN帧代码如何实现&#xff1a;【LIN】1.LIN通信实战&#xff1a;帧收发全流程代码实现 帧类型…

Maven的概念与Maven项目的创建

MavenMaven的概念依赖管理项目构建Maven安装Maven项目的创建Maven的第一个项目Maven的第二个项目Maven的概念 Maven 是 Apache 基金会推出的跨平台的项目管理工具&#xff0c;主要服务于基于Java平台的项目构建、依赖管理和项目信息管理&#xff0c;目前是 Java 生态中最主流的…

Mysql之binlog日志说明及利用binlog日志恢复数据操作记录

众所周知,binlog日志对于mysql数据库来说是十分重要的。在数据丢失的紧急情况下,我们往往会想到用binlog日志功能进行数据恢复(定时全备份+binlog日志恢复增量数据部分),化险为夷! 废话不多说,下面是梳理的binlog日志操作解说: 一、初步了解binlog MySQL的二进制日志…

windows安装Elasticsearch,ik分词器,kibana可视化工具

安装地址 elasticsearch安装地址: Past Releases of Elastic Stack Software | Elastic 分词器下载地址: https://github.com/infinilabs/analysis-ik?tabreadme-ov-file kibana下载地址: Past Releases of Elastic Stack Software | Elastic 注意&#xff1a;版本一定要统…

GaussDB 数据库架构师修炼(十八)SQL引擎-SQL执行流程

1 SQL执行流程查询解析&#xff1a;词法分析、语法分析、 语义分析 查询重写&#xff1a;视图和规则展开、基于规则的查询优化 计划生成&#xff1a;路径搜索和枚举、选出最优执行计划 查询执行&#xff1a;基于优化器生成的物理执行计划对数据进行获取和计算2 解析器和优化器S…