全新大模型开源,腾讯(int4能打DeepSeek) Vs 谷歌(2GB运行多模态)

大家好,我是 Ai 学习的老章

最近除了阿里 Qwen3 模型更新了图片生成和处理能力,大家都可以玩转吉卜力风格

还有几个最近发布的大模型值得关注

  • 1 是腾讯开源了 80B 混元 A13B 模型,亮点是精度无损的 int4 很能打

  • 2 是谷歌开源的小参数 Gemma 3n 多模态大模型,亮点是可以在手机端运行

  • 3 是我刚刚发现的一个小参数超长上下文大模型 Jan-nano-128k,亮点是只有 2.5GB 的Q4_K_M版即可拥有 128K 超长上下文

腾讯混元 A13B

官方技术博客介绍的足够详细了,感兴趣大家可以细看[1]

试用地址:https://hunyuan.tencent.com/?model=hunyuan-a13b

核心特性与优势

  • 小参数量,高性能​:仅激活 130 亿参数(总参数量 800 亿),即可在多样化基准任务中媲美更大规模模型的竞争力表现

  • 混合推理支持​:同时支持快思考和慢思考两种模式,支持用户灵活选择,模型的默认输出是慢思考模式,若想让模型进行快思考,可在 query 前附加上 "/no_think"

  • 超长上下文理解​:原生支持 256K 上下文窗口,在长文本任务中保持稳定性能

  • 增强 Agent 能力​:优化 Agent 能力,在 BFCL-v3、τ-Bench、C3-Bench 等智能体基准测试中领先

  • 高效推理​:采用分组查询注意力(GQA)策略,支持多量化格式,实现高效推理

我是看的 modelscope 上的中文总结版技术博客[2],感觉有几个方面值得关注

1 是腾讯开源了两个新数据集:ArtifactsBench 旨在弥合代码评估中的视觉与交互鸿沟[3],而 C3-Bench 则是专为智能体设计的评估数据集,用于揭示模型弱点并推动性能可解释性研究[4]

2 是 A13B 在数学、科学、agent 等领域可以和OpenAI-o1-1217DeepSeek R1Qwen3-A22B掰手腕。Agent

3是Hunyuan-A13B-Instruct-GPTQ-Int4 量化模型与 Instruct 差别极小,几乎是精度无损!

BenchHunyuan-A13B-InstructHunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench82.784.0
AIME 202487.386.7
Gsm8k94.3994.24
BBH89.187.91
DROP91.191.05

这样的话,本地部署,完全可以直接使用 int4 版本了

完整版本模型文件 160GB,int 只有不到 44GB,我感觉 4 张 4090 就可以跑起来了

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/

int4 版部署

# 下载模型:
# ModelScope: 
modelscope download --model Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4# 拉取
国内:
docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm # 使用modelscope下载的模型起服务
docker run  --privileged --user root  --net=host --ipc=host \-v ~/.cache/modelscope:/root/.cache/modelscope \--gpus=all -it --entrypoint python   docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm \-m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 4 \--port 8000 --model /root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/ --trust_remote_code

DeepSeek-R1 运行成本还是太高了,44GB 的Hunyuan-A13B-Instruct-GPTQ-Int4在数学、推理、Agent 方面值得深入测试一下。

谷歌 Gemma 3n

谷歌 Gemma 又填新成员,往端侧运行发展的小模型 -3n

  • 多模态原生设计:Gemma 3n 天然支持图像、音频、视频和文本输入,并输出文本结果。

  • 为端侧优化而生:Gemma 3n 以效率为核心设计理念,提供 E2B 和 E4B 两种有效参数规模的版本。虽然原始参数分别为 50 亿和 80 亿,但架构创新使其运行时内存占用仅相当于传统的 20 亿和 40 亿参数模型,最低仅需 2GB(E2B)和 3GB(E4B)内存即可运行。

  • 突破性架构:Gemma 3n 的核心创新包括 MatFormer 架构(实现计算灵活性)、逐层嵌入技术 PLE(提升内存效率)、LAuReL 与 AltUp(优化架构效率),以及专为端侧场景优化的新型音频编码器和基于 MobileNet-v5 的视觉编码器。

  • 卓越性能:Gemma 3n 在多语言支持(覆盖 140 种文本语言和 35 种多模态语言理解)、数学运算、代码生成及逻辑推理方面实现全面升级。其 E4B 版本 LMArena 得分突破 1300 分,成为首个参数量低于 100 亿却达到该基准的模型。

只值得期待的就是:如此之低的成本即可拥有端侧运行的多模态大模型

我看外面网友的实测,Gemma 3n 的语音转文字与翻译功能是不错的。

不过这个模最该关注的还是其在端侧运行的情况

谷歌已经将这些模型上架安卓端的 Edge Gallery 应用,考虑到该应用支持 GPU 卸载功能,这应该是最佳使用方式。

但是有网友测试在高通骁龙 6 代 4 处理器(仅 CPU)上每秒生成 4-5 个 token,太慢了,几乎不可用。

目前还是保持关注吧,更多资源大家自行探索:

  • Hugging Face https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

  • Unsloth https://unsloth.ai/blog/gemma-3n

  • HF 博客 https://huggingface.co/blog/gemma3n

  • LMStudio https://lmstudio.ai/models/google/gemma-3n-e4b

  • Ollama https://ollama.com/library/gemma3n

  • AI Studio http://ai.dev

  • Kaggle https://www.kaggle.com/models/google/gemma-3n

  • MLX https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc

  • ONNX/transformers.js https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX

  • Vertex https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3n

  • GGUF 模型发布地址 https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7

Jan-nano-128k

这个就比较小众了,稍微有点名气是 Jan

Jan 是一款可完全离线运行在桌面端且即将支持移动端的类 ChatGPT 工具,旨在让任何人,无论是否具备编程技能,都能在充分掌控和保障隐私的前提下下载和使用 AI 模型。

这个ChatBot还是不错的,支持本地、API 接入大模型 ![https://jan.ai/download

还支持 MCP 和自定义助手指令

Connect Remote APIs

Connect Remote APIs

Jan-Nano-128k 是 Menlo Research 推出的增强版紧凑型语言模型,专为研究应用设计。它的主要特点和优势包括:

  • 原生128k上下文窗口:可高效处理长达 128k tokens 的文本,如完整论文、长文档和复杂多轮对话,且不会像传统扩展方法那样性能下降。

  • 性能提升:在长上下文任务中表现优于前代模型,适合深度文档分析、多文档综合和复杂推理。

  • 兼容性:完全兼容 Model Context Protocol (MCP) 服务器,便于集成到现有研究工作流。

  • 推荐采样参数:Temperature 0.7,Top-p 0.8,Top-k 20,Min-p 0.0。

  • 模型架构:基于 Qwen3 架构,参数量为 4.02B,支持多种量化格式(3-bit 到 8-bit),适配不同硬件需求。

Jan-Nano-128k 已通过基于 MCP 的方法在 SimpleQA 基准测试中完成严格评估,其表现显著优于前代模型:

部署:

# 使用 VLLM 进行部署:
vllm serve Menlo/Jan-nano-128k \--host 0.0.0.0 \--port 1234 \--enable-auto-tool-choice \--tool-call-parser hermes \--rope-scaling '{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}' --max-model-len 131072

本地运行成本极低,完整版本模型文件也就 8GB 左右

https://huggingface.co/Menlo/Jan-nano-128k/tree/main

https://huggingface.co/Menlo/Jan-nano-128k/tree/main

unsloth 还放出了不同量化版本,Q4_K_M版,只有 2.5GB

https://huggingface.co/unsloth/Jan-nano-128k-GGUF/tree/main

https://huggingface.co/unsloth/Jan-nano-128k-GGUF/tree/main

我还没有测试,感觉资源有限情况下,在需要处理超长文本、深度分析和多文档推理的研究任务中,这个模型还是值得期待一下其表现的。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)

图解机器学习 - 中文版(72 张 PNG)

ChatGPT、大模型系列研究报告(50 个 PDF)

108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础

116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数

史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

参考资料

[1]

官方技术博客介绍的足够详细了,感兴趣大家可以细看: https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf

[2]

我是看的 modelscope 上的中文总结版技术博客: https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/summary

[3]

ArtifactsBench 旨在弥合代码评估中的视觉与交互鸿沟: https://github.com/Tencent-Hunyuan/ArtifactsBenchmark

[4]

C3-Bench 则是专为智能体设计的评估数据集,用于揭示模型弱点并推动性能可解释性研究: https://github.com/Tencent-Hunyuan/C3-Benchmark

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/89471.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/89471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

向量数据库milvus中文全文检索取不到数据的处理办法

​检查中文分词配置​ Milvus 2.5 支持原生中文全文检索,但需显式配置中文分词器: 创建集合时指定分词器类型为 chinese python schema.add_field(field_name"text", datatypeDataType.VARCHAR, max_length65535, enable_analyzerTrue, an…

Stable Diffusion 项目实战落地:从0到1 掌握ControlNet 第一篇 打造光影字形的创意秘技

大家好呀,欢迎来到 AI造字工坊! 在这篇文章中,我们将带领你走进一个神奇的世界——ControlNet。你可能听说过它,但可能还没摸清它的深奥之处。 今天,我们就来揭开它神秘的面纱,轻松带你玩转字形设计! 话说回来,相信大家对图片生成、提示词、放大操作、抽卡这些基本操…

从零用java实现 小红书 springboot vue uniapp (12)实现分类筛选与视频笔记功能

移动端演示 http://8.146.211.120:8081/#/ 管理端演示 http://8.146.211.120:8088/#/ 项目整体介绍及演示 前言 在前面的系列文章中,我们已经基本完成了小红书项目的核心框架搭建和图文笔记的发布、展示流程。为了丰富App的功能和用户体验,今天我们将在…

Python与Web3.py库交互实践

目录 Python与Web3.py库交互实践引言:连接Python与区块链的桥梁1. 环境配置与基础连接1.1 安装Web3.py1.2 连接以太坊节点2. 基础区块链交互2.1 账户与余额查询2.2 创建并发送交易3. 智能合约交互3.1 加载和部署合约3.2 与已部署合约交互4. 高级功能实践4.1 事件监听4.2 与ERC…

《汇编语言:基于X86处理器》第6章 条件处理(2)

本章向程序员的汇编语言工具箱中引入一个重要的内容,使得编写出来的程序具备作决策的功能。几乎所有的程序都需要这种能力。首先,介绍布尔操作,由于能影响CPU状态标志,它们是所有条件指令的核心。然后,说明怎样使用演绎…

深度剖析NumPy核心函数reshape()

深度剖析NumPy核心函数reshape reshape()函数基础概念reshape()函数语法与参数详解reshape()函数使用示例基本的形状重塑使用-1自动计算维度多维数组的形状重塑不同order参数的效果 reshape()函数的应用场景数据预处理机器学习模型输入算法实现 当我们使用np.array()创建好数组…

Linux平台MinGW32/MinGW64交叉编译完全指南:原理、部署与组件详解

一、MinGW是什么?为什么需要交叉编译? MinGW(Minimalist GNU for Windows)是一套在Linux上构建Windows应用程序的完整工具链。它允许开发者: 在Linux环境下编译Windows可执行文件(.exe/.dll)避…

为什么我画的频谱图和audacity、audition不一样?

文章目录 系列文章目录 目录 文章目录 前言 一、问题引入 二、使用步骤 三、分析和改进 总结 前言 我们知道audacity和audition都有频谱分析这个窗口,一般过程肯定是分帧加窗,fft变换然后呈现, 大体这个过程是没问题的,但为什…

责任链模式 Go 语言实战

责任链模式(Chain of Responsibility) 责任链模式是一种行为设计模式,它允许将请求沿着处理者链进行传递,直到有一个处理者能够处理它。这个模式的主要目的是解耦请求的发送者和接收者,使得多个对象都有机会处理这个请…

使用开源项目youlai_boot 导入到ecplise 中出现很多错误

我是使用ecplise 导入得youlai_boot 这个项目,但是导入到ecplise 中一直出现报错,然后各种maven clean 和maven install 以及update Maven 都没有效果不知道怎么办才好,怎么样解决这个问题,原来是我本地的环境中没有安装 lombok.…

06_Americanas精益管理项目_数据分析

文章目录 Americanas精益管理项目_数据分析(一)思维方法1、数据分析思维2、零售行业-万能「人货场」分析框架(二)商品分析1、品类销量分析2、销量趋势分析3、帕累托法则分析4、商品TopN分析(三)用户分析(四)场景分析Americanas精益管理项目_数据分析 数据分析与数据开…

ES6从入门到精通:类与继承

ES6 类的基本概念 ES6 引入了基于类的面向对象编程语法,通过 class 关键字定义类。类可以包含构造函数、方法和属性。 class Person {constructor(name) {this.name name;}greet() {console.log(Hello, ${this.name}!);} }const person new Person(Alice); pers…

【经验】新版Chrome中Proxy SwitchyOmega2已实效,改为ZeroOmega

1、问题描述 手欠更新了 Chrome 导致无法“上网”,原因是 Proxy SwitchyOmega2 已实效。 2、解决方法 2.1 下载 新版Chrome中Proxy SwitchyOmega2已实效,改为ZeroOmega; 想方设法去下载 ZeroOmega 的crx包,最新的为&#xff1…

在windows上设置python的环境

安装好了python,再具体说下python语言的相关环境。 #01 关于Python Python 是一个高级别的、边运行边解释的、动态类型的编程语言,以简洁的语法、强大的功能和丰富的资源库而闻名。广泛应用于 Web 开发、数据分析、人工智能、自动化脚本等多个领域。 目前 Python 语言有两…

3D 建模与点云建模:从虚拟构建到实景复刻的数字孪生双引擎

在数字化浪潮席卷全球的当下,3D 建模与点云建模如同数字世界的左膀右臂,一个以抽象化的创意构建虚拟蓝图,一个以高精度的实景数据复刻现实世界。它们不仅深刻重塑了影视娱乐、工业制造、建筑设计等传统领域,更成为数字孪生技术蓬勃…

智能检测原理和架构

大家读完觉得有帮助记得关注和点赞!!! 智能检测系统基于AI和大数据分析技术,通过主动感知、行为建模与实时响应构建动态防御体系。其核心在于将传统规则匹配升级为**多模态威胁认知**,实现对新型攻击(如AI…

2025年6月个人工作生活总结

本文为 2025年6月工作生活总结。 研发编码 某国产操作系统curl下载sftp服务器文件问题记录 场景: 某国产系统curl版本信息: # curl --version curl 7.71.1 (x86_64-koji-linux-gnu) libcurl/7.71.1 OpenSSL/1.1.1f-fips zlib/1.2.11 brotli/1.0.7 li…

Java 导出PDF 1、内容可以插入自定义表格 2、内容插入图片

Java PDF导出工具:自定义表格与图片插入 下面我将实现一个Java PDF导出工具,支持插入自定义表格和图片的功能。这个解决方案使用iText 7库,提供了一个直观的用户界面,可以预览生成的PDF内容。 import javax.swing.*; import jav…

sklearn机器学习概述及API详细使用指南

一、机器学习与sklearn简介 机器学习是人工智能的一个分支,它通过算法让计算机从数据中学习规律,并基于这些规律做出预测或决策。scikit-learn(简称sklearn)是Python中最流行的机器学习库之一,它提供了各种监督学习和…

「日拱一码」015 机器学习常用库——scikit-learn

目录 数据预处理 数据标准化(StandardScaler) 数据归一化(MinMaxScaler) 数据离散化(KBinsDiscretizer) 缺失值处理(SimpleImputer) 特征选择 基于单变量特征选择&#xff08…