【读论文】从Qwen3技术报告到Qwen3-30B-A3B 模型的深度解读

在这里插入图片描述

引言:当大模型追求又小又好用

最近都是各种新大模型满天飞,其中Qwen3-30B-A3B-Instruct-2507很是亮眼,这种参数尺寸是相对友好的,效果好而且模型不大。从这里就引发一下疑问,如何在保证强大能力的同时,兼顾模型的效率可访问性?毫无疑问,混合专家 (Mixture-of-Experts, MoE) 架构是比较现实的选择。然而,MoE 模型的训练和优化,也面临着诸多挑战,如专家负载均衡、路由策略设计、训练稳定性等。如何设计一个既高效又强大的 MoE 模型,仍然是一个活跃的研究领域。

我们结合Qwen3 技术报告深度分析一下MoE 模型的Qwen3-30B-A3B ,文章内容框架如下:

  • 模型架构的创新:如何通过精简的 MoE 设计,实现“小激活参数,大模型能力”。
  • 三阶段预训练策略:如何通过大规模、高质量的数据,奠定其强大的基础能力。
  • 四阶段后训练流程:如何通过“冷启动 -> 强化学习 -> 模式融合 -> 通用 RL”的精细化流程,打造出兼具“思考”和“不思考”能力的强大模型。
  • 强到弱蒸馏 (Strong-to-Weak Distillation):如何将旗舰模型的知识高效地迁移到轻量级模型中。
  • 推理时的「思考预算」:如何通过动态模式切换和思考预算,实现性能与延迟的灵活平衡。

一、 Qwen3-30B-A3B 模型架构:精简高效的 MoE 设计

Qwen3-30B-A3B 的核心在于其混合专家 (MoE) 架构。

1. 核心参数

  • 总参数量 (Total Parameters):30B
  • 激活参数量 (Activated Parameters):3B
  • 层数 (Layers):48
  • 头数 (Heads):32 (Q) / 4 (KV) - 采用了分组查询注意力 (Grouped Query Attention, GQA)
  • 专家数 (Experts):128 (Total) / 8 (Activated)
  • 上下文长度 (Context Length):128K

2. 架构特点与创新

  • MoE 设计
    • 细粒度专家分割 (Fine-grained Expert Segmentation):遵循 Qwen2.5-MoE 的设计,将专家模块进行细粒度的分割,可能有助于提升模型的学习能力和泛化性。
    • 无共享专家 (No Shared Experts):与 Qwen2.5-MoE 不同,Qwen3-MoE 的设计排除了共享专家。这意味着所有的 128 个专家都是独立的,这可能会鼓励更彻底的专家专业化。
    • 全局批次负载均衡损失 (Global-batch Load Balancing Loss):采用这种损失函数来鼓励专家专业化,避免少数专家“过劳”而多数专家“摸鱼”的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94044.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94044.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【番外篇15】中心极限定理:从数学原理到生活案例

一、什么是中心极限定理?中心极限定理(Central Limit Theorem, CLT)是概率论与统计学中最重要的定理之一,它揭示了为什么正态分布在自然界和统计学中如此普遍。​定理表述​:设X₁, X₂, ..., Xₙ 是一组独立同分布的随机变量序列&#xff0c…

本地构建Docker镜像并推送到GitHub Container Registry

一、本地构建并推送镜像1. 登录GitHub Container Registry首先,需要登录到GitHub Container Registry (GHCR):# 使用个人访问令牌(PAT)登录 docker login ghcr.io -u 你的GitHub用户名 -p 你的个人访问令牌注意:你需要在GitHub上创建一个具有…

DP-v2.1-mem-clean学习(3.6.8-3.6.8.1)

3.6.8 lttpr非透明模式下的链路训练 3.6.8.1 支持8b/10b链路层训练规范 ‌默认透明模式‌ 若上游设备未启用LTTPR非透明模式(Non-transparent),需在链路训练前将DPCD F0003h寄存器写入默认值55h38 ‌非法中继器计数值处理‌ 当DPCD F0002h(PHY_REPEATER_CNT)返回值非有…

kali安装maven

kali安装maven 下载maven的安装包 wget https://dlcdn.apache.org/maven/maven-3/3.9.11/binaries/apache-maven-3.9.11-bin.tar.gz 注意可能返回404,这是因为官网已经更新了版本,这种情况可以自己访问https://dlcdn.apache.org/maven/maven-3查看一下最…

GEO优化:品牌营销新战场的光明与荆棘

在AI重塑信息获取方式的今天,一种名为GEO(生成式引擎优化)​的策略正悄然成为企业营销版图的新坐标。它不追求传统搜索引擎中的链接排名,而是争夺生成式AI(如ChatGPT、DeepSeek等)答案中的“话语权”——让…

牛客 - 旋转数组的最小数字

描述 有一个长度为 n 的非降序数组,比如[1,2,3,4,5],将它进行旋转,即把一个数组最开始的若干个元素搬到数组的末尾,变成一个旋转数组,比如变成了[3,4,5,1,2],或者[4,5,1,2,3]这样的。请问,给定这…

1分钟临时共享空间在线小工具实现

运行效果:1分钟临时共享空间 - 免注册即时文件文本共享工具 | 极速传 直接上代码: using Microsoft.AspNetCore.Mvc; using SaaS.OfficialWebSite.Web.Utils; using ZXing.QrCode; using ZXing; using SkiaSharp; using ZXing.SkiaSharp.Rendering; usin…

操作系统-lecture5(线程)

进程的缺点 在创建了子进程的时候,得到了可以并发执行的好处 但创建了进程资源会造成浪费 线程的引入 在同一个进程中有这样两个执行流,为并发执行的,称之为线程 这里引用下《操作系统概念》中的线程概述 任务举例 在复制的过程中&#xf…

FPGA kernel 仿真器调试环境搭建

参考:haps阶段说明2:kernel运行和调试 1 仿真器加载FIT及调试步骤 由于使用仿真器,就要额外配置DS-5的软件环境,有些步骤略复杂,请仔细按照说明操作。 1.1 导入kernel工程 不导入可以运行,但导入方便调试 file——-import 导入后的工程如图 1.2 创建debug 使用attach方…

MySQL(173)MySQL中的存储过程和函数有什么区别?

在MySQL中,存储过程(Stored Procedures)和函数(Functions)是两种用于封装可重用SQL代码的机制。尽管它们在很多方面类似,但仍有一些重要的区别。以下是对存储过程和函数的详细解释,以及如何在My…

可计算存储(Computational Storage)与DPU(Data Processing Unit)的技术特点对比及实际应用场景分析

以下是对可计算存储(Computational Storage)与DPU(Data Processing Unit)的技术特点对比及实际应用场景分析,结合引用资料进行综合说明:一、技术核心对比维度可计算存储DPU核心差异定位存储设备内置计算能力…

rag学习-以项目为基础快速启动掌握rag

rag从0到放弃黄帝内经rag问答系统RAG 项目版本迭代总览各版本技术细节如何使用黄帝内经rag问答系统 本项目使用爬虫获取了皇帝内经全文以此为数据构建检索增强系统 本项目以一个系统的多层迭代不断更新优化技术,由浅入深逐渐理解rag原理及优化技术 话不多说github…

linux 启动流程?

linux 启动流程 CPU 上电后最先执行的启动代码,通常确实是放在 arch 目录下对应架构的启动文件里。这是因为启动代码强相关于 CPU 架构和硬件细节,不同架构差异非常大。具体说明 1. 为什么启动代码放在 arch 目录? 启动代码要设置 CPU 状态&a…

《Kubernetes部署篇:基于Kylin V10+ARM64架构CPU使用containerd部署K8S 1.33.3集群(多主多从)》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:企业级K8s集群运维实战 一、架构图 如下图所示: 二、环境信息 基于x86_64+aarch64架构使用containerd部署K8S 1.33.3集群资源合集(三主多从) 2、部署规划 云平台 主机名 K8S版本 系统版本 CPU架构…

Docker 镜像打包为 ZIP 文件便于分享和转发

网上找到的记录一下方便下次看步骤详解1. 将镜像导出为 TAR 文件Docker 提供了 docker save 命令,可以将镜像导出为 .tar 文件。使用以下命令:docker save -o dify.tar dify说明:docker save:导出镜像为文件。-o dify.tar&#xf…

一对一交友小程序 / APP 系统架构分析

一对一交友小程序 / APP 系统架构分析一、引言在数字化社交的大背景下,一对一交友小程序和 APP 为人们拓展社交圈提供了便捷途径。合理且高效的系统架构是保障此类应用稳定运行、提升用户体验的基石。本文将深入剖析一对一交友小程序 / APP 的系统架构,涵…

Anthropic最新研究Persona vector人格向量

今天本来就想更一期强化学习,但是突然看了Anthropic的persona vector,所以又来写这一篇,因为我觉得这个很有价值以往我们玩LLM比较怕的事就事他乱说话作为概率模型,它能说对,它也能乱编,乱编轻症就是所谓的…

Spring AI集成Elasticsearch向量检索时filter过滤失效问题排查与解决方案

使用vectorStore.similaritySearch遇到问题 最近需要做一个功能,用到了es做向量数据库。在使用vectorStore.similaritySearch查询的时候,发现filterExpression中加的条件并没有完全生效,导致查询出来的数据不准确,出现了不符合me…

安灯系统(Andon System)

安灯系统是源自丰田生产系统(TPS)的一种可视化生产管理工具,其名称"Andon"来自日语的"提灯",原指用于报警的灯笼,现已成为制造业现场管理的核心工具之一。一、安灯系统的定义安灯系统是一种实时监控生产异常的可视化管理…

MyBatis与MySQL

要理解 MyBatis 语法及其与 MySQL 的区别,首先需要明确两者的本质定位:MyBatis 是 Java 的持久层框架(负责 Java 对象与数据库数据的映射),而MySQL 是关系型数据库管理系统(负责数据的存储和 SQL 执行&…