Qwen3技术综述

1. 引入

2025年5月，qwen推出了旗舰模型（flagship model）Qwen3-235B-A22B。并以Apache 2.0版权发布（可自由商业使用，修改代码和商用要包含原始版权）。本文对其技术报告中提到的数据处理技术与模型结构进行综述。

2. 关键成果

（1）将think模式与non-think模式集成到同一个模型
（2）think budget机制，推理时优化、节约资源
（3）预训练数据：36T tokens

3. 训练数据

用多模型来生成训练数据：
（1）多模态模型从pdf中提取文本
（2）math模型生成数学内容
（3）coder模型生成代码相关的内容

4. 训练

预训练分3步：
（1）30T token
的通用数据
（2）STEM和代码数据
（3）长上下文数据32k

后训练分4步：
（1）长CoT推理能力：有/无推理过程的数据都训练
（2）领域强化学习；对小模型做蒸馏

评估：
（1）base预训练模型达到SOTA
（2）后训练的think和no-think模型也都不错

5. 架构

Qwen3的dense模型架构与Qwen2.5类似：
（1）GQA

将 query 头分为 G 组，每组共享一个 key 和 value 头。GQA - 1 相当于 MQA，只有一个组和一个 key、value 头；GQA - H 组数等于 query 头数，相当于 MHA。GQA 介于 MHA 和 MQA 之间，其 kv 分组让模型质量比 MQA 高、速度比 MHA 快，是一种有利的权衡。对于大模型，GQA 在模型规模增大时能保持相同比例的带宽和容量缩减，提供更好的权衡。

（2）SwiGLU
SwigLU（Swish-Gated Linear Unit）是一种融合了门控机制和激活函数的神经网络结构，其核心思想是通过门控机制动态调节非线性变换的强度。将非线性激活函数与门控机制结合，设计一种更灵活的结构，增强模型的表达能力

（3）RoPE
RoPE（Rotary Position Embedding，旋转位置编码）是一种用于改进 Transformer 模型位置编码的机制。其核心思想是通过旋转向量的正交变换来引入位置信息，使模型能够更高效地捕捉序列中的相对位置关系，尤其在长序列场景下表现更优。

（4）RMSNorm
RMSNorm（Root Mean Square Layer Normalization，均方根层归一化）是一种改进的层归一化（Layer Normalization, LN）方法，核心思想是通过简化归一化计算过程并保留尺度信息，提升模型训练的稳定性和效率。

Qwen3的moe模型架构与Qwen2.5类似：
（1）fin-grained专家segmentation
不一样的是
（2）不再使用共享专家

参考

qwen3技术文档，https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/88067.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/88067.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！