开源炸场!阿里通义千问Qwen3-Next发布:80B参数仅激活3B,训练成本降90%,长文本吞吐提升10倍
开源世界迎来震撼突破!
通义千问团队最新发布的Qwen3-Next架构,以其独创的"小而精"设计理念,彻底颠覆了大模型领域的传统认知。这个总参数量达数百亿的创新型模型,通过革命性的稀疏架构与混合注意力机制,实现了令人惊叹的效能突破——单次推理激活参数大幅降低,训练成本显著下降,同时在长文本处理上获得惊人的效率提升。
这一突破性进展不仅为大模型发展提供了全新的技术路径,更展现了"高效智能"的无限可能。
随着Qwen3-Next架构的推出,开源社区正在迎来一个全新的时代——以更少的计算资源实现更强的智能能力,让高性能AI技术变得更加普惠和可持续。
架构创新
Qwen3-Next巧妙融合了线性注意力的高效性与标准注意力的强大召回能力,配合精心设计的专家网络稀疏激活策略,在保证模型性能的同时大幅优化计算资源利用率。更令人瞩目的是,该模型原生支持超长上下文处理,并能通过扩展技术实现百万级别的token处理能力,在长文本理解和生成任务中展现出色表现。
1. Gated DeltaNet+标准Attention,兼顾效率与性能
面对线性注意力机制虽高效但全局召回能力不足,而标准自注意力虽性能强大却计算开销高昂的固有局限,Qwen3-Next创新性地采用了融合Gated DeltaNet与标准注意力的混合架构。该架构以约75%的Gated DeltaNet搭配约25%的标准注意力层:
- Gated DeltaNet在长序列建模任务中表现出显著优势,其效果优于滑动窗口注意力及Mamba2等同类机制。
- 保留的部分标准注意力层则引入输出门控(Output Gating)机制,有效缓解注意力矩阵中的低秩瓶颈问题,并通过将注意力头维度提升至256,对序列前25%的位置施加旋转位置编码(RoPE),显著增强了模型的长程外推与泛化能力。
2. 前瞻预训练,高效推理:多词元预测(MTP)的双重增益
Qwen3-Next创新地使用多词元预测(MTP)任务作为预训练目标,其在预训练和推理阶段均能带来显著收益:
- 预训练过程中,与传统语言模型仅预测下一词元不同,MTP要求模型在每一步同时预测后续多个词元,这种机制迫使模型学习更长程的上下文依赖和更具前瞻性的语言结构,从而深化了对语言因果关系的理解。
- 推理阶段,MTP的能力与投机解码技术天然契合:模型可一次性生成多个候选词元,经系统并行验证后,若接受率高则可大幅提升解码速度,成为实现高效推理的关键技术之一。
3. 门控、归一化与路由初始化助力训练稳定
在训练稳定性方面,模型集成多项创新技术以保障高效收敛:
- 输出门控机制有效抑制了注意力池化过程中的极大激活现象。
- 采用零中心化RMSNorm并结合权重衰减策略,成功缓解了QK归一化中范数权重异常膨胀的问题。
- 此外,通过对MoE路由参数进行初始化归一化,确保训练初期各个专家能够获得均衡的采样机会。
模型评估
在实际能力方面,Qwen3-Next展现出与顶级闭源模型相媲美的卓越性能。无论是在复杂推理任务、代码生成还是长文本理解方面,都达到了开源模型的新高度。
其推理版本在多项专业测试中甚至超越了知名闭源模型,标志着开源社区首次在核心能力上真正比肩业界巨头。
- Qwen3-Next仅使用了Qwen3 36T预训练语料中一个约15T tokens的均匀采样子集,却在训练效率方面实现显著突破:其所消耗的GPU小时数较Qwen3-30A-3B降低超过20%,与Qwen3-32B相比,更是仅需9.3%的计算资源,即达成了更优越的模型性能,充分体现出极高的训练性价比。
- 在推理效率方面,凭借创新的混合架构设计,Qwen3-Next-80B-A3B展现出卓越的性能。在预填充(prefill)阶段,4K上下文长度下的吞吐量达到Qwen3-32B的近七倍;而当上下文长度超过32K时,吞吐量提升更超过十倍。
- 在解码(decode)阶段,该模型同样表现突出:在4K上下文下吞吐提升约四倍,在超越32K的长上下文环境中仍可维持十倍以上的性能优势。此外,Qwen3-Next-80B-A3B-Base模型仅激活约十分之一的非嵌入参数,却在多项基准测试中全面超越了参数量更高的Qwen3-32B-Base,并显著领先于Qwen3-30B-A3B,充分体现出其卓越的模型效率与性能优势。
Qwen3-Next-80B-A3B-Instruct在多项评测中显著超越同类规模模型,并与参数量更大的Qwen3-235B版本表现接近。尤其在长文本能力方面,该模型在RULER评测集不同长度区间均展现出优异性能,其256K超长上下文处理能力甚至超越了层数更多的旗舰模型,凸显了Gated DeltaNet与Gated Attention混合架构在长文本建模中的显著优势。
社区地址
-
OpenCSG社区:
https://opencsg.com/models/Qwen/Qwen3-Next-80B-A3B-Thinking -
hf社区:
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
关于 OpenCSG
OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps
是人工智能领域的一种AI原生方法论。由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品CSGHub提供模型、数据集、代码与AI应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。