开源炸场!阿里通义千问Qwen3-Next发布:80B参数仅激活3B,训练成本降90%,长文本吞吐提升10倍​

开源炸场!阿里通义千问Qwen3-Next发布:80B参数仅激活3B,训练成本降90%,长文本吞吐提升10倍​

开源世界迎来震撼突破!
通义千问团队最新发布的Qwen3-Next架构,以其独创的"小而精"设计理念,彻底颠覆了大模型领域的传统认知。这个总参数量达数百亿的创新型模型,通过革命性的稀疏架构与混合注意力机制,实现了令人惊叹的效能突破——单次推理激活参数大幅降低,训练成本显著下降,同时在长文本处理上获得惊人的效率提升。

这一突破性进展不仅为大模型发展提供了全新的技术路径,更展现了"高效智能"的无限可能。
随着Qwen3-Next架构的推出,开源社区正在迎来一个全新的时代——以更少的计算资源实现更强的智能能力,让高性能AI技术变得更加普惠和可持续。

架构创新

Qwen3-Next巧妙融合了线性注意力的高效性与标准注意力的强大召回能力,配合精心设计的专家网络稀疏激活策略,在保证模型性能的同时大幅优化计算资源利用率。更令人瞩目的是,该模型原生支持超长上下文处理,并能通过扩展技术实现百万级别的token处理能力,在长文本理解和生成任务中展现出色表现。

1. Gated DeltaNet+标准Attention,兼顾效率与性能

面对线性注意力机制虽高效但全局召回能力不足,而标准自注意力虽性能强大却计算开销高昂的固有局限,Qwen3-Next创新性地采用了融合Gated DeltaNet与标准注意力的混合架构。该架构以约75%的Gated DeltaNet搭配约25%的标准注意力层:

  • Gated DeltaNet在长序列建模任务中表现出显著优势,其效果优于滑动窗口注意力及Mamba2等同类机制。
  • 保留的部分标准注意力层则引入输出门控(Output Gating)机制,有效缓解注意力矩阵中的低秩瓶颈问题,并通过将注意力头维度提升至256,对序列前25%的位置施加旋转位置编码(RoPE),显著增强了模型的长程外推与泛化能力。

2. 前瞻预训练,高效推理:多词元预测(MTP)的双重增益

Qwen3-Next创新地使用多词元预测(MTP)任务作为预训练目标,其在预训练和推理阶段均能带来显著收益:

  • 预训练过程中,与传统语言模型仅预测下一词元不同,MTP要求模型在每一步同时预测后续多个词元,这种机制迫使模型学习更长程的上下文依赖和更具前瞻性的语言结构,从而深化了对语言因果关系的理解。
  • 推理阶段,MTP的能力与投机解码技术天然契合:模型可一次性生成多个候选词元,经系统并行验证后,若接受率高则可大幅提升解码速度,成为实现高效推理的关键技术之一。

3. 门控、归一化与路由初始化助力训练稳定

在训练稳定性方面,模型集成多项创新技术以保障高效收敛:

  • 输出门控机制有效抑制了注意力池化过程中的极大激活现象。
  • 采用零中心化RMSNorm并结合权重衰减策略,成功缓解了QK归一化中范数权重异常膨胀的问题。
  • 此外,通过对MoE路由参数进行初始化归一化,确保训练初期各个专家能够获得均衡的采样机会。

模型评估

在实际能力方面,Qwen3-Next展现出与顶级闭源模型相媲美的卓越性能。无论是在复杂推理任务、代码生成还是长文本理解方面,都达到了开源模型的新高度。

其推理版本在多项专业测试中甚至超越了知名闭源模型,标志着开源社区首次在核心能力上真正比肩业界巨头。

  • Qwen3-Next仅使用了Qwen3 36T预训练语料中一个约15T tokens的均匀采样子集,却在训练效率方面实现显著突破:其所消耗的GPU小时数较Qwen3-30A-3B降低超过20%,与Qwen3-32B相比,更是仅需9.3%的计算资源,即达成了更优越的模型性能,充分体现出极高的训练性价比。
  • 在推理效率方面,凭借创新的混合架构设计,Qwen3-Next-80B-A3B展现出卓越的性能。在预填充(prefill)阶段,4K上下文长度下的吞吐量达到Qwen3-32B的近七倍;而当上下文长度超过32K时,吞吐量提升更超过十倍。
  • 在解码(decode)阶段,该模型同样表现突出:在4K上下文下吞吐提升约四倍,在超越32K的长上下文环境中仍可维持十倍以上的性能优势。此外,Qwen3-Next-80B-A3B-Base模型仅激活约十分之一的非嵌入参数,却在多项基准测试中全面超越了参数量更高的Qwen3-32B-Base,并显著领先于Qwen3-30B-A3B,充分体现出其卓越的模型效率与性能优势。

Qwen3-Next-80B-A3B-Instruct在多项评测中显著超越同类规模模型,并与参数量更大的Qwen3-235B版本表现接近。尤其在长文本能力方面,该模型在RULER评测集不同长度区间均展现出优异性能,其256K超长上下文处理能力甚至超越了层数更多的旗舰模型,凸显了Gated DeltaNet与Gated Attention混合架构在长文本建模中的显著优势。

社区地址

  • OpenCSG社区:
    https://opencsg.com/models/Qwen/Qwen3-Next-80B-A3B-Thinking

  • hf社区:
    https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps

人工智能领域的一种AI原生方法论由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品CSGHub提供模型、数据集、代码与AI应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/97835.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/97835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++入门】C++基础

目录 1. 命名空间 1.1 命名空间的创建和使用 2. 输入输出 2.1 输出 2.2 输入 3. 缺省参数 3.1 全缺省 3.2 半缺省 4.函数重载 4.1 为什么C支持重载而C语言不支持? 4.1.2 编译的四个过程 4.2 extern是什么 5.引用 5.1 引用的特性 5.1.1 引用的“隐式类…

如何往mp4视频添加封面图和获取封面图?

前言:大家好,之前有给大家分享过mp4录像的方案,今天给大家分享的内容是:如何在添加自定义的封面图到mp4里面去,以及在进入回放mp4视频列表的时候,怎么获取mp4视频里面的封面图,当然这个获取到的…

你的第一个Transformer模型:从零实现并训练一个迷你ChatBot

点击 “AladdinEdu,同学们用得起的【H卡】算力平台”,注册即送-H卡级别算力,80G大显存,按量计费,灵活弹性,顶级配置,学生更享专属优惠。 引言:破除神秘感,拥抱核心思想 …

【20期】沪深指数《实时交易数据》免费获取股票数据API:PythonJava等5种语言调用实例演示与接口API文档说明

​ 随着量化投资在金融市场的快速发展,高质量数据源已成为量化研究的核心基础设施。本文将系统介绍股票量化分析中的数据获取解决方案,涵盖实时行情、历史数据及基本面信息等关键数据类型。 本文将重点演示这些接口在以下技术栈中的实现: P…

RabbitMQ如何保障消息的可靠性

文章目录什么是消息可靠性?RabbitMQ消息可靠性的三个维度1. 生产者到Exchange的可靠性2. Exchange到Queue的可靠性3. Queue到消费者的可靠性核心机制详解Publisher Confirm机制消息持久化Mandatory参数消费者确认机制(ACK)最佳实践建议1. 合理…

二十、DevOps落地:Jenkins基础入门(一)

二十、DevOps落地:Jenkins基础入门(一) 文章目录二十、DevOps落地:Jenkins基础入门(一)1、DevOps初识1.1 什么是DevOps1.2 DevOps相关工具链1.3 什么是CICD?1.4 持续集成CI介绍1.5 持续交付和持…

简单易实现的数据校验方法Checksum

简单易实现的数据校验方法Checksum 在数据传输中,Checksum(校验和) 扮演着 “数据完整性哨兵” 的角色。它的主要作用是 快速检测数据在传输过程中是否发生了错误 。 下面我将详细解释它的作用、工作原理、优缺点以及典型应用。 核心作用&…

再次深入学习深度学习|花书笔记1

我已经两年没有碰过深度学习了,写此文记录学习过程,加深理解。 深度学习再次深入学习深度学习|花书笔记1信息论第四节 数值计算中的问题上溢出 和 下溢出病态条件优化法再次深入学习深度学习|花书笔记1 这本书说的太繁琐了,如果是想要基于这…

DeerFlow实践:华为LTC流程的评审智能体设计

目录 一、机制设计核心逻辑 二、4 个评审点智能体机制详解 (一)立项决策(ATI)智能体机制 1. 知识调用与匹配 2. 评审校验流程 3. 异常处理 (二)投标决策(ATB)智能体机制 1. …

C++与Lua交互:从原理到实践指南

核心原理:Lua虚拟栈机制 C与Lua能够高效交互的核心在于Lua虚拟栈的设计,这是一个精巧的中立通信区,解决了两种语言间的本质差异:特性对比CLua语言类型静态编译型动态解释型数据管理明确内存布局虚拟机统一管理类型系统编译时确定运…

CSS 编码规范

CSS 编码规范1 CSS1.1 编码规范1.1.1 【强制】所有声明必须以分号结尾1.1.2 【推荐】使用 2 个空格缩进1.1.3 【推荐】选择器与 { 之间保留一个空格1.1.4 【推荐】属性值规范1.1.5 【推荐】组合器规范1.1.6 【推荐】逗号分隔规范1.1.7 【推荐】注释规范1.1.8 【推荐】右大括号规…

ORA-12514:TNS:监听程序当前无法识别连接描述符中请求的服务

已经不止一次自己本机电脑安装的Oracle使用plsqldev软件登入提示这个了.一般前一天还好好的,今天就不行了.好好总结一下吧,也共大家一起借鉴.主要原因还是数据的归档日志因为内部内存已经耗尽,不能在进行归档导致数据库启动异常,没…

Spring框架的JDBC模板技术和事务管理

SpringJDBCJDBC模板技术概述JDBC的模板类的使用Spring框架的事务管理配置文件方式半注解的方式纯注解的方式JDBC模板技术概述 什么是 JDBC 模板技术? JDBC 模板技术是 Spring 框架为简化持久层(数据库操作)编程而提供的一种封装机制&#xf…

将文件部署到受管主机

目录 1.ansible.builtin中用于创建、更新或删除多行文本块的模块是什么 2.copy模块的作用 3.fetch模块的作用 4.file模块的作用 5.lineinfile模块的作用 6.stat模块的作用 7.要确保受管主机上存在文件,类似touch命令功能,还能设置权限等的模块及操作是怎…

Dell PowerEdge R620 服务器内存和硬盘罢工了

文章目录前言调查原因查找解决方案硬盘问题内存问题总结前言 月黑风高夜,服务宕机时。做服务端技术的,谁还没半夜遇到个服务挂掉的情况,而像我这种半兼职网管的工作,遇到机器问题的概率也就更大了,本来周五晚上写完总…

2025:SourceTree 启用/禁用Mercurial 或 Git,像素级细节

最近使用Git管理工具的时候,发现还是SourceTree好用些,但是使用SourceTree带来一个问题:就是每次在重新打开SourceTree的时候,都会重新下载Mercurial.zip文件,查了一下,一般情况下我们是不需要使用Mercuria…

安卓 Google Maps 的使用和开发步骤

文章目录1. main2. Android 谷歌地图3. 源码Reference1. main 在国内选择的SDK可以是高德、百度、腾讯、xxxx等,但在国外,你首选是谷歌,因此要进行Google地图的开发你首先要解决下面三个问题 VPN Google账号 信用卡American Express&#x…

Linux -- 应用层协议Http

1.HTTP背景知识 HTTP协议:HTTP(HyperText Transfer Protocol,超文本传输协议)的本质是运行在 TCP/IP 协议族之上的 “应用层协议”,核心作用是定义客户端(如浏览器、APP)与服务器之间的 “数据…

R 语言本身并不直接支持 Python 中 f“{series_matrix}.txt“ 这样的字符串字面量格式化(f-string)语法 glue函数

R 语言本身并不直接支持 Python 中 f"{series_matrix}.txt" 这样的字符串字面量格式化(f-string)语法。 在 R 中,要实现字符串拼接或格式化,你需要使用其他方法。下表对比了 Python f-string 和 R 中常见对应方法的主要…

【AI智能体】亮数据MCP Server × Dify:AI智能体获取实时影音数据就是这么简单

文章目录一、引言:AI 应用与实时影音数据的融合价值1、传统采集方式的痛点2、MCP Server 的创新价值二、亮数据 MCP Server 概览1、什么是 MCP Server?2、支持的影音平台和API接口3、产品特色亮点三、业务场景示例设计1、选定场景:竞品分析与…