1. 引入
2025年5月,qwen推出了旗舰模型(flagship model)Qwen3-235B-A22B。并以Apache 2.0版权发布(可自由商业使用,修改代码和商用要包含原始版权)。本文对其技术报告中提到的数据处理技术与模型结构进行综述。
2. 关键成果
(1)将think模式与non-think模式集成到同一个模型
(2)think budget机制,推理时优化、节约资源
(3)预训练数据:36T tokens
3. 训练数据
用多模型来生成训练数据:
(1)多模态模型从pdf中提取文本
(2)math模型生成数学内容
(3)coder模型生成代码相关的内容
4. 训练
预训练分3步:
(1)30T token
的通用数据
(2)STEM和代码数据
(3)长上下文数据32k
后训练分4步:
(1)长CoT推理能力:有/无推理过程的数据都训练
(2)领域强化学习;对小模型做蒸馏
评估:
(1)base预训练模型达到SOTA
(2)后训练的think和no-think模型也都不错
5. 架构
Qwen3的dense模型架构与Qwen2.5类似:
(1)GQA
将 query 头分为 G 组,每组共享一个 key 和 value 头。GQA - 1 相当于 MQA,只有一个组和一个 key、value 头;GQA - H 组数等于 query 头数,相当于 MHA。GQA 介于 MHA 和 MQA 之间,其 kv 分组让模型质量比 MQA 高、速度比 MHA 快,是一种有利的权衡。对于大模型,GQA 在模型规模增大时能保持相同比例的带宽和容量缩减,提供更好的权衡。
(2)SwiGLU
SwigLU(Swish-Gated Linear Unit)是一种融合了门控机制和激活函数的神经网络结构,其核心思想是通过门控机制动态调节非线性变换的强度。将非线性激活函数与门控机制结合,设计一种更灵活的结构,增强模型的表达能力
(3)RoPE
RoPE(Rotary Position Embedding,旋转位置编码)是一种用于改进 Transformer 模型位置编码的机制。其核心思想是通过旋转向量的正交变换来引入位置信息,使模型能够更高效地捕捉序列中的相对位置关系,尤其在长序列场景下表现更优。
(4)RMSNorm
RMSNorm(Root Mean Square Layer Normalization,均方根层归一化)是一种改进的层归一化(Layer Normalization, LN)方法,核心思想是通过简化归一化计算过程并保留尺度信息,提升模型训练的稳定性和效率。
Qwen3的moe模型架构与Qwen2.5类似:
(1)fin-grained专家segmentation
不一样的是
(2)不再使用共享专家
参考
- qwen3技术文档,https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf