读From GPT-2 to gpt-oss: Analyzing the Architectural Advances(续)

本篇由来,在COC上我当面感谢了组委会和姜宁老师,随即被姜宁老师催稿,本来当天晚上写了一个流水账,感觉甚为不妥。于是决定慢慢写,缓缓道来。要同时兼顾Show me the code,Show me the vide。希望能形成一个从不同侧面观测我自己Community Over Code 2025参会心的,收获的内容集合。
感觉这个系列正慢慢变成一场开发过程的图文慢直播,肯能有助于大家一步一步的从零开始构建自己的Agent。
我定了一个番茄钟,每天写稿大概1~2个钟,写到哪儿算哪儿。
今天也对内容进行了调整把前略改成附录了,颇有一种写论文的感觉。
BTW,知乎我一般隔一天发。插曲可以TL;DR。

词汇表

异人智能,我从KK和建忠老师的直播,个人笔记,了解到的词汇,我很喜欢。大家请自行替换为大模型,Agent就好了。

许可证更新

GPT-OSS模型采用了Apache 2.0开源许可证,允许自由使用、修改和商业化,与Qwen3等模型类似。通过明确区分两类模型(开放权重 vs. 完全开源),GPT-OSS选择以Apache 2.0许可证提供高自由度,但未公开训练细节。这一方案平衡了商业灵活性与技术透明度。用户可自由将模型用于商业产品或蒸馏优化,无需法律限制,但需注意其技术黑箱性。Apache 2.0协议确保了低门槛的应用普及。

OpenAI发布了名为“GPT-OSS”的模型,并明确将其定义为开放权重模型(仅提供模型权重和推理代码,不含训练代码或数据集)。

GPT-OSS的其他趣闻

训练概览

GPT-OSS模型是先进的AI模型,专注于STEM(科学、技术、工程、数学)、编程和通用知识。训练使用了210万H100 GPU小时的计算资源,其中GPT-OSS-20B模型的计算量约为其他模型的十分之一。
目前缺乏关于训练数据集规模和具体算法的详细信息,尤其是与其他模型(如DeepSeek V3和Qwen3)的比较数据不足。
通过监督微调和高计算强化学习阶段优化模型,使其在英语文本任务中表现优异。尽管计算资源庞大,但GPT-OSS-20B的效率显著更高。

GPT与DeepSeek模型的训练差异

GPT模型的训练时长估算同时包含监督学习(用于指令跟随)和强化学习(用于推理),而DeepSeek V3仅为基础预训练模型,其后续的DeepSeek R1是单独训练的。
这种差异可能影响模型性能对比的公平性,因为GPT的训练涵盖更全面的优化阶段,而DeepSeek V3的基础模型未整合后续微调步骤。
DeepSeek选择分阶段训练(先预训练V3,再单独训练R1),而非像GPT一样整合多阶段训练。这一方式可能提升模块化灵活性,但需额外协调不同阶段的优化目标。
分阶段训练允许更专注的模型优化(如V3专注通用能力,R1强化特定任务),同时降低单次训练的算力压力。但需权衡整体效率与最终性能的统一性。

GPT-OSS模型的推理能力控制

GPT-OSS模型是具备推理能力的AI模型,其特点是用户可以通过调整推理时的参数(如“推理力度:低/中/高”)直接控制模型的响应长度和准确性。
传统AI模型的推理能力通常是固定的,用户无法灵活调整其输出深度或细节程度,这限制了不同场景下的适用性。
通过引入“推理力度”指令,用户可根据需求选择低、中、高三种模式:

  • 低力度:生成简洁响应,适合快速问答。
  • 中力度:平衡响应长度与准确性,适用于常规任务。
  • 高力度:输出更详细的分析,适合复杂问题。
    这一设计提升了模型的灵活性,让用户能按需优化效率(低力度节省时间)或精度(高力度增强可靠性),从而适应多样化应用场景。
GPT-OSS的响应长度与质量研究

OpenAI发布了GPT开源模型的性能分析,重点研究了模型在不同推理努力(reasoning effort)下的响应长度与输出质量的关系,相关数据标注于模型卡片中。
模型的响应长度和质量可能受推理计算量影响,若未优化这一关系,可能导致效率低下(如生成长文本但质量不稳定)或资源浪费(如过度计算短响应)。
通过调整模型的推理努力参数(如计算步数或注意力机制),实验显示:

  • 结果:适当提升推理努力可平衡响应长度与质量,避免冗余或低效输出。
  • 益处:用户能更高效地获得符合需求的回答,同时节省计算资源。
    在这里插入图片描述
    简单任务(如回答基础问题或修正小错误)若采用复杂推理,会浪费资源并导致冗长响应。通过动态调整推理层级,系统可跳过不必要的深度分析。

OpenAI未像Qwen3或OLMo那样在强化学习训练前公开基础模型,而Qwen3团队近期放弃了混合推理模式,改为单独训练不同功能的模型(如Instruct/Thinking/Coder)。
OpenAI的选择可能更偏向工业和生产需求,而非研究用途;Qwen3的混合模式虽灵活(通过标签切换推理行为),但性能低于独立模型。

OpenAI推出MXFP4优化技术,提升大模型运行效率

OpenAI发布了采用MXFP4量化方案的gpt-oss模型,该技术专门针对混合专家(MoE)模型中的专家模块进行优化。传统量化技术主要用于移动端或嵌入式AI,但大模型(如120B参数规模)需要更高计算资源,通常依赖多GPU设备,导致成本高且部署复杂。MXFP4量化技术使大模型能在单块高端GPU(如80GB显存的H100或AMD MI300X)上运行。

优势:

  1. 降低成本:无需多GPU设备,单卡即可部署,节省算力租赁费用。
  2. 简化部署:避免跨GPU通信开销,提升运行效率。
  3. 兼容性广:支持最新硬件(如AMD MI300X),扩展应用场景。

旧显卡无法支持MXFP4格式,导致模型运行效率低下,显存需求激增,限制了普通用户的使用。
4. 硬件升级:采用RTX 50系列及以上显卡,启用MXFP4优化,显著降低显存占用(20B模型仅需16GB)。
5. 兼容性取舍:旧硬件仍可运行,但需承受更高显存消耗(如20B模型达48GB)。

评分与表现

目前,开源大模型(如Qwen3-Instruct)在LM Arena排行榜上表现领先,但新模型(如gpt-oss)尚未被纳入评测。新模型因发布时间较短,缺乏独立基准测试数据,导致公众无法全面了解其实际性能。通过LM Arena等公开平台持续追踪模型表现,例如Qwen3-Instruct凭借用户投票暂居榜首。
在这里插入图片描述
OpenAI发布了GPT-OSS模型的基准测试图表(图23),同时公开了未使用工具的GPT-OSS-120B数据(来自官方模型卡论文),而Qwen3的数据则来自其官方仓库。这类基准测试旨在量化大语言模型的性能,但不同模型的测试数据和评估标准可能存在差异,导致直接比较的难度。
在这里插入图片描述

开源大模型GPT-OSS-120B的性能与挑战

GPT-OSS-120B是一款开源大语言模型,体积仅为同行模型(如Qwen3 A235B-A22B-Thinking-2507)的一半,但能在单GPU上运行。测试显示其性能接近甚至部分超越同类模型,尤其在数学、谜题和代码等推理任务上表现突出。该模型存在较高的“幻觉”倾向(即生成不准确信息),可能因其训练过度侧重推理任务,导致通用知识遗忘。此外,开源大模型的工具集成技术仍处于早期阶段,限制了实际应用场景。

模型发展应更注重推理能力而非记忆

随着人工智能模型的成熟,未来可能更依赖外部资源(如搜索引擎)来回答事实性或知识性问题。当前模型过度依赖记忆而非推理能力,可能导致效率不足或灵活性受限,类似于人类教育中死记硬背的局限性。
解决方案与效果:

  • 方案:优先提升模型的推理能力,而非单纯记忆事实。
  • 结果:模型能更高效地动态获取信息,减少对静态知识库的依赖。
  • 益处:
  1. 更贴近人类学习模式(注重解决问题而非记忆)。
  2. 增强应对复杂问题的灵活性,适应实时信息变化。

OpenAI发布GPT-5与开源模型表现对比

OpenAI近期发布了备受期待的GPT-5模型,紧随其开源项目gpt-oss之后。值得注意的是,开源模型的基准性能表现(如图24所示)与OpenAI的最新产品GPT-5相比,差距令人意外地小。这一现象引发疑问:为何开源模型的性能能够接近商业旗舰产品?这可能反映了技术开源的潜力,或商业产品与开源项目在优化目标上的差异。OpenAI通过同时推进开源(gpt-oss)和商业产品(GPT-5)的策略,既促进了技术共享,又保持了竞争力。结果显示,开源模型在基准测试中表现优异,甚至逼近GPT-5的水平。这一进展为开发者社区提供了高性能的开源工具,降低了技术门槛;同时,商业产品的持续迭代推动行业创新。用户既能享受开源模型的低成本优势,也能选择更成熟的商业解决方案。

GPT-5与开源模型的性能对比分析

OpenAI发布了GPT-5的官方性能数据,同时开源模型gpt-oss和Qwen3-Coder也公布了基准测试结果。这些数据来自各方的官方公告和技术文档。随着大语言模型的快速发展,公众需要清晰了解不同模型的性能差异,尤其是闭源商业模型(如GPT-5)与开源替代方案(如gpt-oss、Qwen3)的对比。通过整理官方发布的基准测试图表(如GPT-5公告、gpt-oss模型卡、Qwen3-Coder仓库数据),研究者可以横向比较各模型的性能表现。

在这里插入图片描述

附录

思考

Agent是作者个人或者团体的一些强烈的哲学表达
最近看到的提示词相关内容汇总
基于数据驱动来写提示词(一)

Strands Agent实战

Strands Agent 前文
Community Over Code 2025获得的花絮(Strands Agent踩坑记录,被AWS的speaker催更
)
基于Strands Agent开发辅助阅读Agent

Agent从零开发

没用langchain什么的脚手架,从DeepSeek官网的首次调用 API 开始,一步一步,面向DeepSeek开始对话的开发实战记录。

没有Vibe Coding IDE, 学生可以从这个过程看底层一步一步怎么做的,为什么这么做。
如果想学习古法编程的朋友,可以一步一步从零自学。
理解原理,如果后续langchain全面收费的话,大家可以知道什么部分为什么这么设计,方便迁移。

是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(一)
是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(二)
是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(三)
是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(插曲篇)
是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(五)
是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(六)
是Conference还是Hackathon?Community Over Code 2025上践行自己的哲学感悟(七)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919337.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919337.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6-7 TIM编码器接口 [江科协STM32]

一、引入(1)编码器接口的好处:节约软件资源:外部中断计次,程序频繁进入中断,则软件资源会被简单频繁的工作给占用,效率不高使用定时器的编码器接口,再配合编码器,就可以测…

01数据结构-交换排序

01数据结构-交换排序1.冒泡排序1.1基础冒泡排序1.1.1基础冒泡排序代码实现1.2冒泡排序的一次优化1.2.1冒泡排序的第一次优化代码实现1.3冒泡排序的二次优化1.3.1 冒泡排序的二次优化代码实现2.快速排序2.1双边循环法2.1.1双边循环法的代码实现2.2单边循环法2.2.1单边循环法代码…

MySQL架构和储存引擎

MySQL服务器整体架构如下:连接层:连接层的作用是处理客户端的连接,如何管理连接的。网络端口和连接管理线程:网络端口:一台服务器可以连接网络上多个端口的客户连接,只需要开放多个端口,只需要在…

详解flink java基础(一)

文章目录1.流式处理flink介绍2.Flink SQL介绍3. Flink Runtime4.使用flink集成kafka5.使用Flink SQL进行有状态流处理6.Event time & Watermarks7. flink Checkpoints & recovery1.流式处理flink介绍 实时服务依赖流式处理: flink优点: 高性能丰富的特性&#xff1a…

Day119 持续集成docker+jenkins

Day119 dockerjenkins 1.Dockerfile Dockerfile 可以用于项目部署。通过编写 Dockerfile,可以将整个项目及其所需的依赖项打包到一个 Docker 镜像中,然后在任何支持 Docker 的环境中部署和运行该镜像 Dockerfile 是用于构建 Docker 镜像的文本文件。它包…

Vue3+Vite MPA多页面应用开发完整指南 – 从零搭建到部署优化

什么是 MPA 多页面应用 MPA(Multi-Page Application)是由多个独立的 HTML 页面组成的应用,每个页面都有独立的入口文件。与 SPA 不同,MPA 的每个页面都是独立的,页面间通过链接跳转,适合大型项目或需要 SE…

【企业级架构】企业战略到技术落地的全流程【第一篇】

目录 一、人生蓝图与企业罗盘:战略视角下的成长架构 1. 大学毕业迷茫期 → 企业未制定战略前:无方向、无目标​ 2. 制定职业规划 → 企业战略制定:明确 “去哪” 和 “分几步走”​ 3. 盘点自身能力差距 → 业务架构梳理:搞清…

(二) Python + 地球信息科学与技术 = 经典案例分析

目录 四、农业精准施肥与产量预测(植被指数 机器学习) 五、公共场所踩踏事故预警系统(时空大数据 Web 开发) 六、森林火灾智能识别与救援路径规划(遥感 路径优化) 七、海岸线侵蚀动态监测与防护&…

从需求到部署全套方案:餐饮服务许可证数据可视化分析系统的大数据技术实战

🎓 作者:计算机毕设小月哥 | 软件开发专家 🖥️ 简介:8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

Qt 关于QString和std::string数据截断的问题- 遇到\0或者0x00如何处理?

Qt 关于QString和std::string数据截断的问题- 遇到\0或者0x00如何处理?引言一、解决方案二、使用QByteArray注意事项引言 在Qt开发中,使用QString或std::string获取、发送字符串时,遇到\0(空字符)或者0x00(十六进制表示)可能导致数据截断&am…

Spring Cloud LoadBalancer 最佳实践

Ribbon 曾经是 Spring Cloud 家族默认的客户端负载均衡工具,而 Spring Cloud LoadBalancer (SCLB) 是官方替换 Ribbon 的新实现。表面上它们都解决 “服务调用时选哪个实例” 的问题,但在理念、架构和生态上差异不小。一、Ribbon vs SCLB1. 定位和生态…

【STM32】SPI 与 Flash 笔记

1️⃣ SPI(Serial Peripheral Interface,串行外设接口)英文解释: Serial:串行Peripheral:外设Interface:接口用途:MCU 与外部设备(Flash、传感器等)高速数据通…

抽象工厂设计模式 Abstract Factory

抽象工厂抽象工厂设计模式是一种创建模式,它提供了一个用于创建相关或从属对象族的接口,而无需指定其具体类。 它在以下情况下特别有用: 您需要创建必须一起使用并且是一致系列的一部分的对象(例如,按钮、复选框和菜单…

WSL 下的虚拟网卡配置

第一部分:Windows 虚拟网卡创建指南 1. 原理 在 Windows 里,“虚拟网卡”本质是由网络驱动在系统网络栈中创建的一个 软件网卡接口。它的作用和物理网卡类似,只不过不直接连接到物理硬件,而是通过内核网络驱动与宿主机网络进行交换…

Dify web前端源码本地部署详细教程

目录 1. 先启动API 2. 启动worker服务 3. 启动web 4. 访问登陆地址 在前面的文章中,Dify源码部署,搭建二次开发环境(一) 已经记录了如何在本地启动API、work、中间件。在本篇文章中,将概述如何启动dify web源码项…

CVPR 2025|英伟达联合牛津大学提出面向3D医学成像的统一分割基础模型

在 2D 自然图像和视频的交互式分割领域,基础模型已引发广泛关注,这也促使人们开始构建用于医学成像的 3D 基础模型。然而,3D 医学成像存在的领域差异以及临床应用场景,要求开发一种有别于现有 2D 解决方案的专用模型。具体而言&am…

解决“Win7共享文件夹其他电脑网络无法发现共享电脑名称”的问题

要让运行 Windows 7 的电脑被局域网中其他设备(包括另一台电脑、手机、NAS 等)“发现”,必须同时满足三个条件: 网络发现功能已启用;对应的后台服务已启动;防火墙规则放行。 下面给出最简、最稳妥的 3 步设…

Python pyzmq 库详解:从入门到高性能分布式通信

一、前言 在现代软件开发中,进程间通信(IPC)与分布式系统通信已经成为基础能力。无论是构建一个微服务架构的后端,还是实现大规模并行计算任务,如何让不同的进程或节点之间高效地传递消息,都是核心问题。 传…

CentOS 7更换国内镜像源

第一步:检查系统版本 在修改任何配置之前,先确定你的 CentOS 版本,因为不同版本的镜像源配置文件不同。 cat /etc/redhat-release这个命令会显示你的 CentOS 版本信息,例如 CentOS Linux release 7.9.2009 (Core)。从你的错误日志…

详解 doclayout_yolo:Python 文档布局检测

目录一、doclayout_yolo 核心功能二、安装方法1. 直接安装2. 通过 PDF-Extract-Kit 安装三、使用示例1. 快速体验(HuggingFace Demo)2. 本地推理代码3. 批量处理四、技术亮点五、应用场景六、其他说明1.相关资源2. 注意事项doclayout_yolo 是一个基于 Y…