读From GPT-2 to gpt-oss: Analyzing the Architectural Advances（续）

序

本篇由来，在COC上我当面感谢了组委会和姜宁老师，随即被姜宁老师催稿，本来当天晚上写了一个流水账，感觉甚为不妥。于是决定慢慢写，缓缓道来。要同时兼顾Show me the code，Show me the vide。希望能形成一个从不同侧面观测我自己Community Over Code 2025参会心的，收获的内容集合。
感觉这个系列正慢慢变成一场开发过程的图文慢直播，肯能有助于大家一步一步的从零开始构建自己的Agent。
我定了一个番茄钟，每天写稿大概1～2个钟，写到哪儿算哪儿。
今天也对内容进行了调整把前略改成附录了，颇有一种写论文的感觉。
BTW，知乎我一般隔一天发。插曲可以TL；DR。

词汇表

异人智能，我从KK和建忠老师的直播，个人笔记，了解到的词汇，我很喜欢。大家请自行替换为大模型，Agent就好了。

许可证更新

GPT-OSS模型采用了Apache 2.0开源许可证，允许自由使用、修改和商业化，与Qwen3等模型类似。通过明确区分两类模型（开放权重 vs. 完全开源），GPT-OSS选择以Apache 2.0许可证提供高自由度，但未公开训练细节。这一方案平衡了商业灵活性与技术透明度。用户可自由将模型用于商业产品或蒸馏优化，无需法律限制，但需注意其技术黑箱性。Apache 2.0协议确保了低门槛的应用普及。

OpenAI发布了名为“GPT-OSS”的模型，并明确将其定义为开放权重模型（仅提供模型权重和推理代码，不含训练代码或数据集）。

GPT-OSS的其他趣闻

训练概览

GPT-OSS模型是先进的AI模型，专注于STEM（科学、技术、工程、数学）、编程和通用知识。训练使用了210万H100 GPU小时的计算资源，其中GPT-OSS-20B模型的计算量约为其他模型的十分之一。
目前缺乏关于训练数据集规模和具体算法的详细信息，尤其是与其他模型（如DeepSeek V3和Qwen3）的比较数据不足。
通过监督微调和高计算强化学习阶段优化模型，使其在英语文本任务中表现优异。尽管计算资源庞大，但GPT-OSS-20B的效率显著更高。

GPT与DeepSeek模型的训练差异

GPT模型的训练时长估算同时包含监督学习（用于指令跟随）和强化学习（用于推理），而DeepSeek V3仅为基础预训练模型，其后续的DeepSeek R1是单独训练的。
这种差异可能影响模型性能对比的公平性，因为GPT的训练涵盖更全面的优化阶段，而DeepSeek V3的基础模型未整合后续微调步骤。
DeepSeek选择分阶段训练（先预训练V3，再单独训练R1），而非像GPT一样整合多阶段训练。这一方式可能提升模块化灵活性，但需额外协调不同阶段的优化目标。
分阶段训练允许更专注的模型优化（如V3专注通用能力，R1强化特定任务），同时降低单次训练的算力压力。但需权衡整体效率与最终性能的统一性。

GPT-OSS模型的推理能力控制

GPT-OSS模型是具备推理能力的AI模型，其特点是用户可以通过调整推理时的参数（如“推理力度：低/中/高”）直接控制模型的响应长度和准确性。
传统AI模型的推理能力通常是固定的，用户无法灵活调整其输出深度或细节程度，这限制了不同场景下的适用性。
通过引入“推理力度”指令，用户可根据需求选择低、中、高三种模式：

低力度：生成简洁响应，适合快速问答。
中力度：平衡响应长度与准确性，适用于常规任务。
高力度：输出更详细的分析，适合复杂问题。
这一设计提升了模型的灵活性，让用户能按需优化效率（低力度节省时间）或精度（高力度增强可靠性），从而适应多样化应用场景。

GPT-OSS的响应长度与质量研究

OpenAI发布了GPT开源模型的性能分析，重点研究了模型在不同推理努力（reasoning effort）下的响应长度与输出质量的关系，相关数据标注于模型卡片中。
模型的响应长度和质量可能受推理计算量影响，若未优化这一关系，可能导致效率低下（如生成长文本但质量不稳定）或资源浪费（如过度计算短响应）。
通过调整模型的推理努力参数（如计算步数或注意力机制），实验显示：

结果：适当提升推理努力可平衡响应长度与质量，避免冗余或低效输出。
益处：用户能更高效地获得符合需求的回答，同时节省计算资源。

简单任务（如回答基础问题或修正小错误）若采用复杂推理，会浪费资源并导致冗长响应。通过动态调整推理层级，系统可跳过不必要的深度分析。

OpenAI未像Qwen3或OLMo那样在强化学习训练前公开基础模型，而Qwen3团队近期放弃了混合推理模式，改为单独训练不同功能的模型（如Instruct/Thinking/Coder）。
OpenAI的选择可能更偏向工业和生产需求，而非研究用途；Qwen3的混合模式虽灵活（通过标签切换推理行为），但性能低于独立模型。

OpenAI推出MXFP4优化技术，提升大模型运行效率

OpenAI发布了采用MXFP4量化方案的gpt-oss模型，该技术专门针对混合专家（MoE）模型中的专家模块进行优化。传统量化技术主要用于移动端或嵌入式AI，但大模型（如120B参数规模）需要更高计算资源，通常依赖多GPU设备，导致成本高且部署复杂。MXFP4量化技术使大模型能在单块高端GPU（如80GB显存的H100或AMD MI300X）上运行。

优势：

降低成本：无需多GPU设备，单卡即可部署，节省算力租赁费用。
简化部署：避免跨GPU通信开销，提升运行效率。
兼容性广：支持最新硬件（如AMD MI300X），扩展应用场景。

旧显卡无法支持MXFP4格式，导致模型运行效率低下，显存需求激增，限制了普通用户的使用。
4. 硬件升级：采用RTX 50系列及以上显卡，启用MXFP4优化，显著降低显存占用（20B模型仅需16GB）。
5. 兼容性取舍：旧硬件仍可运行，但需承受更高显存消耗（如20B模型达48GB）。

评分与表现

目前，开源大模型（如Qwen3-Instruct）在LM Arena排行榜上表现领先，但新模型（如gpt-oss）尚未被纳入评测。新模型因发布时间较短，缺乏独立基准测试数据，导致公众无法全面了解其实际性能。通过LM Arena等公开平台持续追踪模型表现，例如Qwen3-Instruct凭借用户投票暂居榜首。
在这里插入图片描述
OpenAI发布了GPT-OSS模型的基准测试图表（图23），同时公开了未使用工具的GPT-OSS-120B数据（来自官方模型卡论文），而Qwen3的数据则来自其官方仓库。这类基准测试旨在量化大语言模型的性能，但不同模型的测试数据和评估标准可能存在差异，导致直接比较的难度。
在这里插入图片描述

开源大模型GPT-OSS-120B的性能与挑战

GPT-OSS-120B是一款开源大语言模型，体积仅为同行模型（如Qwen3 A235B-A22B-Thinking-2507）的一半，但能在单GPU上运行。测试显示其性能接近甚至部分超越同类模型，尤其在数学、谜题和代码等推理任务上表现突出。该模型存在较高的“幻觉”倾向（即生成不准确信息），可能因其训练过度侧重推理任务，导致通用知识遗忘。此外，开源大模型的工具集成技术仍处于早期阶段，限制了实际应用场景。

模型发展应更注重推理能力而非记忆

随着人工智能模型的成熟，未来可能更依赖外部资源（如搜索引擎）来回答事实性或知识性问题。当前模型过度依赖记忆而非推理能力，可能导致效率不足或灵活性受限，类似于人类教育中死记硬背的局限性。
解决方案与效果：

方案：优先提升模型的推理能力，而非单纯记忆事实。
结果：模型能更高效地动态获取信息，减少对静态知识库的依赖。
益处：

更贴近人类学习模式（注重解决问题而非记忆）。
增强应对复杂问题的灵活性，适应实时信息变化。

OpenAI发布GPT-5与开源模型表现对比

OpenAI近期发布了备受期待的GPT-5模型，紧随其开源项目gpt-oss之后。值得注意的是，开源模型的基准性能表现（如图24所示）与OpenAI的最新产品GPT-5相比，差距令人意外地小。这一现象引发疑问：为何开源模型的性能能够接近商业旗舰产品？这可能反映了技术开源的潜力，或商业产品与开源项目在优化目标上的差异。OpenAI通过同时推进开源（gpt-oss）和商业产品（GPT-5）的策略，既促进了技术共享，又保持了竞争力。结果显示，开源模型在基准测试中表现优异，甚至逼近GPT-5的水平。这一进展为开发者社区提供了高性能的开源工具，降低了技术门槛；同时，商业产品的持续迭代推动行业创新。用户既能享受开源模型的低成本优势，也能选择更成熟的商业解决方案。

GPT-5与开源模型的性能对比分析

OpenAI发布了GPT-5的官方性能数据，同时开源模型gpt-oss和Qwen3-Coder也公布了基准测试结果。这些数据来自各方的官方公告和技术文档。随着大语言模型的快速发展，公众需要清晰了解不同模型的性能差异，尤其是闭源商业模型（如GPT-5）与开源替代方案（如gpt-oss、Qwen3）的对比。通过整理官方发布的基准测试图表（如GPT-5公告、gpt-oss模型卡、Qwen3-Coder仓库数据），研究者可以横向比较各模型的性能表现。

在这里插入图片描述

附录

思考

Agent是作者个人或者团体的一些强烈的哲学表达
最近看到的提示词相关内容汇总
基于数据驱动来写提示词（一）

Strands Agent实战

Strands Agent 前文
Community Over Code 2025获得的花絮（Strands Agent踩坑记录，被AWS的speaker催更
)
基于Strands Agent开发辅助阅读Agent

Agent从零开发

没用langchain什么的脚手架，从DeepSeek官网的首次调用 API 开始，一步一步，面向DeepSeek开始对话的开发实战记录。

没有Vibe Coding IDE, 学生可以从这个过程看底层一步一步怎么做的，为什么这么做。
如果想学习古法编程的朋友，可以一步一步从零自学。
理解原理，如果后续langchain全面收费的话，大家可以知道什么部分为什么这么设计，方便迁移。

是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟（一）
是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟（二）
是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟(三)
是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟（插曲篇）
是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟（五）
是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟（六）
是Conference还是Hackathon？Community Over Code 2025上践行自己的哲学感悟（七）