【AI非常道】二零二五年五月，AI非常道

经常在社区看到一些非常有启发或者有收获的话语，但是，往往看过就成为过眼云烟，有时再想去找又找不到。索性，今年开始，看到好的言语，就记录下来，一月一发布，亦供大家参考。

前面的记录：
《【AI非常道】二零二五年一月，AI非常道》
《【AI非常道】二零二五年一月（二），AI非常道》
《【AI非常道】二零二五年二月，AI非常道》
《【AI非常道】二零二五年三月，AI非常道》
《【AI非常道】二零二五年四月，AI非常道》

电子书 Mathematics for Machine Learning 《机器学习数学》

mml-book.github.io/
“一本关于机器学习数学的书，用语激励人们学习数学概念。本书并非涵盖高级机器学习技术，因为已经有大量书籍在介绍这些内容。相反，我们旨在提供阅读那些其他书籍所需的数学技能。”

GitHub 上一款简单易用、快速且免费的文件翻译工具：DeeplxFile

来自@GitHubDaily

GitHub 上一款简单易用、快速且免费的文件翻译工具：DeeplxFile。

基于 Deeplx/playwright 实现，不限制文件大小，支持超长文本翻译，支持 DeepL 和主流大模型作为翻译源。

尤其擅长翻译超长且复杂的文档，如超大的 Excel 文件，甚至还能正确显示复杂的引用公式。

GitHub：github.com/infrost/DeeplxFile

除此之外，还可以将翻译好的 PDF 文件一键转换为可编辑的 .docx 文档。

并且提供开箱即用的一键安装包，支持Windows 和 macOS 系统

《动手学大模型》系列编程实践教程

来自@蚁工厂
《动手学大模型》系列编程实践教程
github.com/Lordog/dive-into-llms
《动手学大模型》系列编程实践教程，由上海交通大学2024年春季《人工智能安全技术》课程（NIS3353）讲义拓展而来（教师：张倬胜），旨在提供大模型相关的入门编程参考。近期更新了国产化《大模型开发全流程》教程（含PPT、实验手册和视频）（由华为昇腾社区支持）

一款开源免费且实用的浏览器插件： code-box

跟大家分享一款开源免费且实用的浏览器插件： code-box。

用于主流的技术社区网站，如 CSDN、知乎、掘金等，实现无需登录一键复制代码、阅读全文、去除登录弹窗等功能。

GitHub：github.com/027xiguapi/code-box

除此之外，还可以一键下载文章成html或markdown文件。

如果你是一名技术开发者，该插件值得安装一试。

来自麻省理工出品的一本《决策算法》书籍

来自麻省理工出品的一本《决策算法》书籍，可免费下载阅读！

涵盖了概率推理、序列决策问题、模型/状态不确定性以及多 Agent 系统等内容。

并且提供大量示例和练习帮助大家理解不同算法的直觉和应用场景。
地址：
https://algorithmsbook.com/?continueFlag=e8b658ab7565d6ebcdf1bf80e850ce3f

Diffusion-LLM-Papers：一个专注于扩散语言模型的论文集合

【[33星]Diffusion-LLM-Papers：一个专注于扩散语言模型的论文集合。它为研究人员和开发者提供了一个全面的资源平台，帮助快速了解该领域的最新进展。亮点：1. 涵盖多种类型模型，包括基础模型、多模态模型和强化学习模型；2. 提供快速采样和加速推理的相关研究；3. 持续更新，已有超过10篇最新论文收录】
‘Diffusion-LLM-Papers: A Collection of Papers on Diffusion Language Models’
GitHub: github.com/ML-GSAI/Diffusion-LLM-Papers

Awesome-LLM-Post-training：为大语言模型（LLM）的推理能力提升提供一站式资源宝库

【[1.7k星]Awesome-LLM-Post-training：为大语言模型（LLM）的推理能力提升提供一站式资源宝库。亮点：1. 汇集了20多篇前沿调研论文，涵盖LLM后训练的最新理论与实践；2. 提供多种推理强化方法的代码实现，助力快速上手；3. 整合了多个领域（如数学、决策、多模态）的LLM推理应用案例与基准测试】
‘Awesome Reasoning LLM Tutorial/Survey/Guide’
GitHub: github.com/mbzuai-oryx/Awesome-LLM-Post-training

吴恩达谈Agent

来自@高飞
#模型时代# 吴恩达谈智能体：营销人员把Agent这个词搞坏了，所以别纠结定义，看它能干什么活就好，Vibe Coding也是一个糟糕的术语，让人有了AI编码无所不能的幻觉

前几天的LangChain Interrupt节目中，LangChain创始人Harrison Chase邀请吴恩达做了一场对话，感觉含金量蛮高的，分享一下。

核心观点其实都写在标题里了，吴恩达说自己算是Agent这个领域的开创者之一，一致呼吁它的重要性。但是现在营销人员炒作太多，让Agent失去了原本的含义。但是呢，也不要纠结什么是Agent，工作流也可以算是Agent，主要是看干什么活。

而对于Vibe Coding，他觉得是一个糟糕的概念。尽管如此，事情已经成定局。（吴恩达的学习平台也有Vibe Coding课程）

一、重新定义智能体：从二元判断到连续光谱

Harrison开场提到了吴恩达备受引用的观点——谈论应用的"智能化程度"而非判断"是否为智能体"。这个概念转变反映了AI智能体领域从理论探讨走向实践应用的重要转折。

吴恩达回忆起一年半前的情况：当时他和Harrison都在努力说服业界关注智能体技术，但到去年夏天，营销人员开始大量使用"agentic"词汇，导致概念逐渐失去精确含义。更严重的是，太多人在争论什么是真正的智能体，陷入"是否真正自主"的哲学讨论，而非专注于解决实际问题。

吴恩达提出了更实用的框架：将智能体视为连续光谱，不同系统具有不同程度的自主性。“如果你想构建一个具有一点自主性或很多自主性的智能化系统，这都很好，没必要花时间争论这是否是真正的智能体。让我们把所有这些都称为具有不同自主程度的智能化系统。”

这种思维转变的意义在于将焦点从概念争论转向实际构建。开发者不再需要纠结于系统是否配得上"智能体"称号，而是专注于提升系统的智能化水平和实用性。这种方法减少了社区内部的无意义争论，让大家专注于真正重要的事情——构建有用的智能化系统。

二、当前发展现状：线性工作流占据主导地位

吴恩达对当前智能体应用发展状况的观察令人意外：大多数成功的智能体应用都是相对简单的线性工作流，而非复杂的自主决策系统。

虽然吴恩达团队在处理最复杂问题时会使用LangGraph这样的复杂流程工具，但他发现更多商业机会实际上存在于相对简单的线性工作流中。他举例说明典型的商业流程：员工查看网站表单、进行网络搜索、检查数据库中的合规问题、复制粘贴信息、再次搜索、填入另一个表单。这些看似复杂的业务流程，实际上可以分解为一系列顺序执行的微任务。

"在商业流程中，实际上有很多相当线性的工作流，或者说是线性的但带有非常小的规则和偶尔的分支，"吴恩达解释道。这些分支通常表示工作流程的失败或需要人工干预的情况。

然而，吴恩达指出了关键挑战：企业很难将现有业务流程转化为智能化工作流。这包括几个层面的困难：粒度把握问题（如何合理分解复杂流程）、性能优化问题（如何识别和改进瓶颈步骤）、评估体系问题（如何建立有效的反馈机制）。

这整套将业务流程智能化的技能集合目前仍然过于稀缺。很多企业有智能化改造需求，但缺乏系统性的实施能力。从机会数量和潜在价值来看，简单工作流程仍有大量未被开发的空间。

三、开发者技能差距与"乐高积木"工具生态

吴恩达分析了智能体开发者面临的技能挑战，首先坦诚表示："这是个好问题，我希望我知道一个好答案。"这反映了该领域仍在快速发展，最佳实践尚未完全形成。

数据集成与系统连接是第一个挑战。开发者需要掌握如何高效获取和处理数据，通过LangGraph集成工具或新兴的MCP协议来简化数据接入。评估框架的构建是吴恩达特别强调的技能——正确的评估框架不仅要评估整体系统性能，还要能够追踪各个步骤的表现。

更重要的是**"战术直觉"的重要性。有经验的开发者能够通过观察输出结果、查看执行轨迹，在几分钟内做出关于下一步行动的正确决策。而缺乏经验的团队往往会走进错误的技术路径，花费数月时间试图改进某个组件**。

为了解释工具使用的复杂性，吴恩达提出了生动的**"乐高积木"类比**："如果你只有紫色乐高积木，你就构建不出什么有趣的东西。"他将各种AI工具比作不同颜色和形状的乐高积木，包括RAG、聊天机器人框架、内存系统、评估工具、护栏机制等。

工具多样性的价值显而易见：开发者掌握的工具越多样，就能越快地组装出真正有用的系统。但挑战在于工具的快速演进。吴恩达特别提到，由于大语言模型上下文长度越来越长，一年半前的很多RAG最佳实践现在已经不那么相关了。

"随着LLM技术的持续进步，两年前的很多技术直觉可能已经不再适用，"吴恩达指出。这要求开发者不仅要掌握当前工具，还要持续更新知识库，适应技术发展的快速变化。

四、被低估的技术：评估系统与语音应用

当Harrison询问哪些技术被低估时，吴恩达出人意料地回到了评估系统，尽管这已是当天会议的热门话题。这反映了一个重要现象：即使大家都在谈论评估重要性，实际执行却严重不足。

吴恩达分析了根本原因：人们往往将构建评估系统视为一个巨大的、必须做对的工程项目。相反，吴恩达提出了截然不同的评估构建哲学：“我把评估系统看作是我要快速组装的东西，大概20分钟内完成，而且质量不会太好。”

他的实际做法是：当遇到特定的性能回退问题时，针对这个特定问题快速编写简单评估，可能只有五个输入示例，用简单的LLM评判者检查这个特定问题。关键在于增量式改进——先有一个有缺陷但有用的评估，然后基于使用经验逐步改进。

语音技术栈是吴恩达特别强调的另一个被低估领域。他观察到有趣现象：语音应用在大型企业中引起了极大兴趣，但开发者社区的关注度远小于企业重视程度。

语音交互的心理学优势是关键价值所在。文本输入框对很多用户来说实际上令人生畏，而且存在退格键问题——“人们通过文本回应会比较慢”。相比之下，语音交互具有时间不可逆性：“时间会向前推进，你必须继续说话。”

这带来了意想不到的好处：语音交互降低了用户使用某些应用的摩擦。“我觉得当我们说话时，我们不会像写作时那样感觉需要达到完美，所以人们更容易开始表达想法，改变主意，来回讨论。”

然而，语音应用面临独特的技术挑战，最关键的是延迟要求。"如果有人说了什么，你真的希望在一秒内回应，理想情况下少于500毫秒。"吴恩达分享了构建虚拟形象的经验，开发了"预回应"技术来掩盖延迟，效果良好。

五、MCP协议现状与多智能体系统局限

吴恩达和Harrison深入分析了最近备受关注的MCP（模型上下文协议）。吴恩达透露，就在对话当天早上，他们与Anthropic联合发布了MCP短期课程，原因是"我在网上看到了很多关于MCP的内容，我觉得相当令人困惑"。

MCP的重要性得到了行业认可，特别是OpenAI也采用了这个标准。MCP解决的核心问题是数据集成的复杂性：“当我使用LLM或构建应用程序时，我们花费大量时间在管道工作上——数据集成，将上下文传递给LLM。”

MCP试图通过标准化接口避免N×M的集成复杂度。吴恩达强调了背后的核心理念：“当你有N个模型和M个数据源时，这不应该是N乘以M的工作量，应该是N加M。”

然而，吴恩达也坦诚指出了MCP目前面临的挑战："感觉有点像狂野西部，你在网上找到的很多MCP服务器都不工作。"认证系统不稳定，协议本身仍处于早期阶段，需要更分层的发现机制来管理复杂性。

关于多智能体系统，吴恩达的评估更加务实：“大多数人，包括我，我们甚至很难让我们的代码正常工作。让我的智能体与其他人的智能体协作，感觉像是需要两个奇迹的要求。”

他区分了两种场景：同一团队内的多智能体系统通常可行，但跨团队的智能体协作仍然过于早期。“如果说MCP还处于早期阶段，那么智能体间协作比MCP更加早期。”

六、"Vibe Coding"误解与AI时代编程本质

对话转向当前热门的"vibe coding"现象，吴恩达对这个术语表达了强烈不满，认为命名误导了人们对AI辅助编程本质的理解。

"不幸的是，它被称为vibe coding，因为这误导了很多人认为只需要凭感觉——接受这个，拒绝那个，"吴恩达解释道。他的亲身经验完全否定了这种轻松化的观点：“当我用AI编程系统进行一天的编程后，到一天结束时我筋疲力尽。这是一项深度智力活动。”

更重要的是，吴恩达强烈反对一些人建议不要学习编程的观点，认为这是**“一些最糟糕的职业建议”**。他从历史角度分析："在过去几十年中，随着编程变得更容易，更多人开始编程。"从打孔卡到键盘，从汇编语言到COBOL，每次技术进步都增加了程序员数量。

吴恩达预测，AI编程辅助将导致更多人学习编程："未来最重要的技能之一是能够准确告诉计算机你想要什么，让它为你执行。"理解计算机工作原理的价值在AI时代不仅没有降低，反而更加重要。

他分享了自己的经验："我个人是比JavaScript强得多的Python开发者。但通过AI辅助编程，我现在写的JavaScript和TypeScript代码比以前多得多。"即使在不熟悉的语言中，编程基础知识仍然至关重要。

七、AI创业的核心成功要素

对话最后聚焦于吴恩达从AI Fund多年经验中总结的核心成功法则。基于回顾经验教训，吴恩达提出了两个关键预测因子。

第一个也是最重要的成功预测因子：速度。"成功创业的头号预测因子是速度，"吴恩达强调。"很多人从未见过熟练团队能够执行的速度。"这种速度差异不是简单的效率提升，而是质的差别，“比任何慢节奏企业知道如何做的事情快得多”。

第二个重要预测因子是技术知识。吴恩达分析了技能分布："如何营销、销售、定价等知识已经存在，分布更广。但真正稀少的知识是技术实际上如何工作，因为技术发展如此快速。"最稀少的资源是真正理解技术如何工作的人。

基于这两个要素，AI Fund特别偏好与深度技术人员合作：“我们喜欢与深度技术人员合作，他们有良好的直觉，知道该做什么、不该做什么，这让你能够快两倍。”

这种技术深度带来的速度优势显著。有技术直觉的团队能够快速判断技术路径可行性，避免在错误方向上浪费时间。吴恩达最后平衡地表示：“很多商业方面的知识非常重要，但通常更容易搞清楚。”

一篇有意思的论文《在没有外部奖励的情况下学习推理》

来自@蚁工厂

arxiv.org/abs/2505.19590
缘起为在人类考试时，人们通常对自己有信心的题目回答得更准确，那LLMs 是否也会表现出这种“信心 ≈ 正确性”的模式？作者搞了这个“基于内部反馈的强化学习”，使用自我确定性作为强化学习的奖励信号——无需外部监督。发现结果也还是有效的（图3深蓝色部分）
在这里插入图片描述

把智能体当作应用程序里的一个服务模块

来自@零重力瓦力
今年 AI 领域最火的话题非智能体（AI Agent）莫属。不过有个同样重要的问题却经常被忽视。构建好的智能体该如何部署到实际工作环境中？除了聊天机器人，还有别的形式吗？

Google 的开发者推广专家 Jason 和 Aja 用一个 AI 烹饪学校的案例，详细展示了智能体在软件开发中扮演的角色和部署方式。

现在绝大多数 AI 系统都是以聊天机器人的形式与用户交互，不管是文字对话还是语音交流，自然语言聊天在很多场景下确实效果不错。但聊天界面并不是万能的。比如一个 AI 烹饪教学平台，如果只有聊天功能，用户得主动问才能得到课程推荐，这种被动模式显然发挥不了 AI 的真正价值。更好的体验应该是系统根据用户的历史行为、饮食偏好、当地时令食材，甚至节庆节日等信息，主动推送个性化的学习内容。

这样的需求让我们重新审视智能体的部署方式。其实我们可以把智能体当作应用程序里的一个服务模块，而不是独立的对话系统，这为解决复杂业务场景打开了新的思路。在这种架构下，智能体就像 API 一样可以被程序代码调用，接收用户的上下文信息或用户 ID，然后返回处理结果，让 AI 无缝融入到各种业务流程中。

另外，性能优化是工程化部署的关键环节**。AI 模型推理通常比较耗时，特别是涉及多模态内容的场景。如果智能体每次都等用户发出指令后才实时生成个性化内容，用户体验肯定很糟糕。有效的解决办法是采用异步处理和预计算。通过定时任务让智能体提前生成内容并缓存到用户档案中，把耗时的 AI 计算从用户交互环节中分离出来，保证界面的实时响应。**

智能体之间的协作也为复杂业务场景提供了更多可能。通过工具调用机制，不同智能体可以专注各自的专业领域，然后组合起来形成更强大的功能。在烹饪教学的例子中，课程智能体可以调用具有不同功能的 “专门智能体” ，例如 “食材采购智能体”，“订单管理” 智能体等。这种模块化设计不仅提高了系统的可维护性，也为业务扩展提供了灵活性。

这种服务化的智能体架构其实遵循了经典的软件工程原则。封装、模块化、关注点分离这些传统理念在 AI 时代依然适用，甚至变得更加重要。当 AI 能力被抽象为服务接口时，它就能更好地融入现有技术栈，而不是作为一个孤立的 “黑盒” 存在。

从基础到突破的大语言模型微调终极指南

来自@爱可可-爱生活
https://arxiv.org/abs/2408.13296
【从基础到突破的大语言模型微调终极指南——技术、研究、最佳实践及应用挑战与机遇的全面综述：这篇详尽的综述通过提出一个创新的七阶段LLM微调流程，系统梳理了从基础理论到前沿技术（如PEFT、MoA、PPO/DPO对比）、评估部署、工业平台及多模态应用的完整知识体系，并深刻揭示了在RAG与微调选择、以及PPO在特定条件下可能优于DPO等反直觉观点，为研究者与实践者提供了应对LLM微调复杂性的宝贵指南和未来探索方向】《The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities》 (2024)

一个易用、可扩展的推理模型训练训练场环境

来自@蚁工厂
上海人工智能实验室搞了个挺有意思的项目：InternBootcamp
github.com/InternLM/InternBootcamp
Internbootcamp是一个易用、可扩展的推理模型训练训练场环境。通过集成大量可验证的推理任务并为其支持无限量的自动化问题生成和结果验证，Internbootcamp旨在提供推理形式多样且难度可控的大规模数据资源，以推动大模型在广泛场景下的推理能力提升及泛化。目前，Internbootcamp已集成上千种可验证的、难度可控的推理任务，包含游戏（games）、逻辑问题（logic）、谜题（puzzles）、算法问题（algorithms）等，并在持续扩展中。

字节开源一款专注于高效处理文档的多模态模型：Dolphin

来自@GitHubDaily

现在大部分 OCR 工具在处理扫描文档或 PDF 时，遇到包含表格、公式的复杂页面，识别效果往往比较差。

最近字节开源了一款专注于高效处理文档的多模态模型：Dolphin，能精准解析各种复杂文档元素。

通过两阶段分析解析机制，先进行页面布局分析确定阅读顺序，再并行处理不同类型元素，既保证了准确性又大幅提升了效率。

GitHub：github.com/bytedance/Dolphin
模型下载：huggingface.co/ByteDance/Dolphin

主要功能：

页面级解析，输出结构化 JSON 和 Markdown 格式；
元素级解析，专门处理文本段落、表格、公式等；
自然阅读顺序识别，保持文档逻辑结构；
并行处理机制，大幅提升解析效率；
支持 Hugging Face 框架，便于集成使用；
两种推理模式，适应不同使用场景。

目前代码与模型均已开源，并且提供了在线体验 Demo，有需要的可以先尝试再部署使用

MCP Prompt Server

来自@GitHubDaily

平时用 AI 工具积累了一堆 Prompt，但真要用的时候总是想不起来放哪了，每次还得复制粘贴，颇为麻烦。

此时，可以尝试使用 MCP Prompt Server 这款 MCP 服务器，把我们常用的 Prompt 变成了可调用的工具，告别复制粘贴。

它将每个 Prompt 模板注册为 MCP 工具，支持自然语言调用，还能在 Raycast、Cursor、Windsurf 等工具中通用。

GitHub：github.com/joeseesun/mcp-prompt-server

主要功能：

丰富的内置 Prompt 模板，涵盖代码、写作、产品设计等场景；
所有 Prompt 自动注册为工具，支持参数化调用；
支持热加载，无需重启即可添加新 Prompt；
只需添加 YAML 文件即可扩展新功能；
适配 Raycast、Cursor、Windsurf 等主流编辑器；
自然语言对话即可调用，还能组合多个工具实现复杂工作流。

通过 npm install 安装后配置到 MCP 客户端即可使用

soarXiv 快速找到同类论文和关联论文

来自@黄建同学

soarXiv 快速找到同类论文和关联论文

取出任意论文的 URL，将 arxiv 替换为 soarxiv（视频中显示），即可传送到其在论文世界中的位置

已收录截至 2025 年 4 月前的所有 280 万篇论文

尝试一下：soarxiv.org

Kevin P. Murphy 编写的强化学习综述

来自@蚁工厂

Google的科学家 Kevin P. Murphy 编写的强化学习综述赶在520这天又更新了一版，200多页了已经。 #520#
arxiv.org/abs/2412.05265
新版在LLM 章节进行了重大更新（例如 DPO、GRPO、思考部分）。
全篇综合性的介绍了强化学习（Reinforcement Learning, RL）的理论基础、方法、应用及其最新进展。文章从序贯决策制定的基本概念出发，详细介绍了值函数、策略梯度和基于模型的强化学习方法，并探讨了多智能体强化学习、大语言模型（LLM）与强化学习的结合等前沿领域。

塞巴斯蒂安• 拉施卡的仓库

来自@蚁工厂

塞巴斯蒂安• 拉施卡写的《从零构建大模型》除了书籍内容之外，配套的github仓库里也有大量的好东西。LLMs-from-scratch-CN 这个项目（ github.com/MLNLP-World/LLMs-from-scratch-CN ）就是对配套github仓库的内容翻译，包括详细的markdown 笔记和相关的jupyter 代码。

在这里插入图片描述

DeepSeek新论文：DeepSeek-V3在硬件架构方面的挑战和创新，以及如何通过软硬件协同设计实现高效训练和推理。

来自@蚁工厂
deepseek又发新论文了！arxiv.org/pdf/2505.09343
论文主要介绍了DeepSeek-V3在硬件架构方面的挑战和创新，以及如何通过软硬件协同设计实现高效训练和推理。
关键结论
✨内存效率：DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB，远低于其他模型（如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB）。这使得模型更适合处理长文本和资源受限的环境。
✨成本效益：MoE 架构允许在训练时仅激活部分参数，从而显著降低计算需求。例如，DeepSeek-V3 在扩展到 671B 参数时，每个 token 的激活参数仅为 37B，相比全参数激活的密集模型（如 72B 的 Qwen 和 405B 的 LLaMA），计算成本大幅降低。
✨推理速度：通过重叠计算和通信以及多令牌预测模块，DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如，多令牌预测模块可以将生成速度提高 1.8 倍。
✨低精度计算：FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练，通过细粒度量化策略，相对 BF16 的精度损失控制在 0.25% 以内。
✨网络优化：采用多平面两层 Fat-Tree 网络拓扑，相比传统的三层 Fat-Tree 拓扑，显著降低了网络成本，并提高了网络的鲁棒性和可扩展性。
论文还提出了对未来 AI 硬件的建议和展望。
在这里插入图片描述

MCP图示

在这里插入图片描述

2025 年在 GitHub 上涌现比较热门的十大开源 AI 项目

来自@行痴·知无畏

分享一下 2025 年在 GitHub 上涌现比较热门的十大开源 AI 项目吧。

Open WebUI MCP

功能：将 MCP 工具转为 OpenAPI 兼容的 HTTP 服务器，简化 AI 工具与 RESTful 接口的连接

意义：推动 AI 整合标准化，类似 MCP 的协议正成为趋势

License：MIT

Unbody

功能：类似“AI 版 Supabase”，提供模块化后端，支持数据感知、存储、推理和行动四个层面，构建 AI 原生软件

意义：抽象化后端管理，适合快速开发高级 AI 智能体

License：Apache 2.0

功能：基于 CAMEL-AI 的多智能体框架，支持浏览器、终端和 MCP 工具的协作，在 GAIA 基准测试中排名第一

意义：展示多智能体、多模型架构的潜力，标志着 AI 从单一模型到协作系统的转变

License：Apache 2.0

F/mcptools

功能：为 MCP 服务器提供命令行界面，支持工具发现、调用和模拟服务器，输出 JSON 或表格视图

意义：为开发者提供熟悉的 CLI 体验，加速 MCP 工具开发和测试

License：MIT

Nutlope/self.so

功能：通过上传简历或 LinkedIn 资料，AI 自动生成个人网站，集成 Vercel AI SDK、Next.js 等技术

意义：展示 AI 如何通过模块化服务快速构建应用，体现“AI 乐高”开发模式

License：MIT

VoiceStar

功能：支持精确时长控制的 TTS 模型，适合配音、广告等时间敏感场景

意义：开源 TTS 模型提供广播级精准度，推动语音界面发展

License：MIT（代码），CC-BY-4.0（模型）

Second-Me

功能：创建“数字孪生”智能体，模仿用户的知识、风格和偏好，可管理 LinkedIn 或 Airbnb 账户

意义：反映从模型到智能体的趋势，探索个性化 AI 应用

License：Apache 2.0

SesameAILabs/csm

功能：对话语音模型（CSM）基于 Llama 架构，将文本和音频转为自然语音，运行于单 GPU

意义：多模态语音生成挑战专有 TTS 方案，促进社区对大参数语音系统的研发。

License：Apache 2.0（代码，模型有限制）

Letta

功能：推出“.af”文件格式，封装 AI 智能体的记忆和行为，支持跨框架迁移

意义：类似“AI 智能体的 Docker 镜像”，解决智能体迁移和版本控制难题

License：Apache 2.0

Blender meets Claude

功能：通过 MCP 将 Blender 与 Claude AI 连接，支持自然语言控制 3D 创作

意义：展示 MCP 如何将 LLM 接入复杂桌面应用，预示 3D 设计领域的聊天驱动 UX 革新

License：MIT

通过这 10 大 AI 开源项目，我们可以看到 AI 的发展趋势：

AI 从模型转向智能体：过去关注模型微调，如今开发者更关心如何通过 AI 智能体完成具体任务
MCP 成为 AI 工具整合标准：MCP 像“ AI USB-C”，让不同 LLM 能轻松调用工具
多智能体协同成主流：多智能体框架（如 OWL）让多个专业化智能体协作，解决复杂问题
语音生成技术进步：TTS 和 STT 技术突破，注重精准时长控制和自然音质
数字孪生实验增加：个人化 AI（如数字孪生）能跨应用携带用户语境和风格

FastAPI-MCP

来自@黄建同学

FastAPI-MCP
一种零配置工具，用于自动将 FastAPI 公开为模型上下文协议 (MCP) 的工具。
最近⭐涨得很猛↓

访问：github.com/tadata-org/fastapi_mcp

huggingface的一篇介绍视觉语言模型进展的博客

来自@蚁工厂

huggingface的一篇介绍视觉语言模型进展的博客（英文）
huggingface.co/blog/vlms-2025
“在这篇博客中，我们将回顾并梳理过去一年视觉语言模型领域的所有重要动态。您将了解到关键变革、新兴趋势以及值得关注的进展。”
在这里插入图片描述

在这里插入图片描述

HandBrake 这款开源视频转码工具

来自@GitHubDaily

在处理视频时经常被各种格式问题搞得头大，一些设备不支持某些格式，或者文件太大传不上云盘，找付费软件又特别贵，免费的又功能太少。

寻找解决方案时，发现了 HandBrake 这款开源视频转码工具，一键将视频转换成各种格式，轻松解决格式兼容问题！

它支持从几乎任何来源（DVD、蓝光、视频文件）转换视频，提供丰富的预设配置适合不同设备，还能通过智能编码算法大幅压缩文件体积同时保持画质。

GitHub：github.com/HandBrake/HandBrake

主要功能：

支持从 DVD、蓝光和各种视频文件转换视频；
为 iPhone、Android、AppleTV 等主流设备提供优化预设；
内置多种编码器包括 H.265 和 VP9，支持硬件加速；
可调整字幕、章节和视频参数（分辨率、帧率等）；
提供强大的视频过滤器（降噪、去交错、裁剪等）；
批量转码功能，一次处理多个文件。

在官网或 GitHub 发布页面下载安装包即可使用，兼容 Windows、Linux 和 macOS 系统。

一站式探索多模态推理模型的前沿发展

来自@爱可可-爱生活

【[79星]Awesome-Large-Multimodal-Reasoning-Models：一站式探索多模态推理模型的前沿发展。亮点：1. 涵盖从基础到前沿的多模态模型，提供清晰发展脉络；2. 整合大量数据集和基准测试，助力研究与应用；3. 详细分析未来趋势，为研究者指明方向】
‘Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models’
GitHub: github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models
在这里插入图片描述

《我训练了一个语言模型来用 GRPO 安排日程活动！》

来自@蚁工厂

《我训练了一个语言模型来用 GRPO 安排日程活动！》
huggingface.co/blog/anakin87/qwen-scheduler-grpo
“2025 年，在 DeepSeek 热潮之后，每个人都想用 GRPO 训练自己的推理模型。
作为一个实践派，我也跃跃欲试：仅通过提示和奖励让语言模型学习——不同于监督微调，无需完成样本——这太令人着迷了。
网上大多数例子都在用 GSM8K 或倒计时游戏训练模型。我想尝试些原创内容，亲手实践一番。
于是我想：能不能训练一个模型，让它根据事件列表和优先级来制定日程安排呢？
初期实验表明，ChatGPT 大体能解决这类问题，而小型语言模型（14B 参数以下）则表现欠佳。这真是个不错的挑战！
当时我没意识到，选择一个原创性问题会迫使我思考问题设定、生成数据、选择基础模型、设计奖励函数，并进行多轮训练，同时祈祷模型能真正学到东西。
有许多东西要学，而这正是我想在本文中与大家分享的。”
对应的github库：github.com/anakin87/qwen-scheduler-grpo

Andrej Karpathy 谈论 system prompt 学习

来自@i陆三金

Andrej Karpathy 谈论 system prompt 学习：

我们（至少）错失了一种大语言模型学习的重要范式。我尚不知其确切名称，或许可称之为“系统提示学习（system prompt learning）”？

预训练旨在知识的习得，微调（监督学习/强化学习）则重在行为模式的塑造。

这两种学习方式均涉及参数的调整，然而许多人类的学习过程，则更像是“系统提示”的迭代与更新。当你遇到难题，经过一番思索找到解决之道后，便会以相当明确的方式将心得“铭记于心”，以备不时之需。譬如：“每当遇到此类问题，我便应尝试如彼方法或方案。”这更像是为自己做笔记——类似“记忆”功能，但其目的并非存储用户个人的零散信息，而是记录普适性的、全局的问题解决知识与策略。大语言模型当下处境，恰如电影《记忆碎片》中的主角，只是我们尚未赋予它们随手记录的“便笺簿”。值得注意的是，这种新范式在效能和数据利用率上都将远胜以往，因为一个由知识引导的“复盘”阶段，其反馈信息的维度远高于单一的奖励标量。

阅读了Claude模型那长达约一万七千词的系统提示后，我不禁思如泉涌，遂草草记下这些想法。该提示不仅详述了其基本的行为风格与偏好（例如，拒绝处理与歌词相关的各类请求），更包含了海量的通用解题策略，譬如：

“当被要求统计词语、字母或字符数量时，Claude会先逐步思考，再作答。它会通过为每个单位（词、字母、字符）编号的方式进行显式计数，并在完成这一明确的计数步骤后，才给出答案。”

此举旨在帮助Claude解决诸如“‘草莓’（strawberry）一词中有几个‘r’字母”之类的问题。在我看来，这类解题知识不应（至少不应立即或完全）通过强化学习固化到模型权重之中，更不应依赖人类工程师逐字逐句地手动编写系统提示。它应当源自“系统提示学习”——一种在机制设定上与强化学习相似，但学习算法（通过编辑而非梯度下降）截然不同的范式。大语言模型系统提示的相当一部分内容，未来或可经由“系统提示学习”自动生成。这过程好比大语言模型亲自为自己撰写一部“解题指南”。一旦成功，这将开创一种全新且强大的学习范式。当然，这其中尚有诸多细节亟待明确（例如，编辑机制如何运作？编辑系统本身能否以及应否通过学习获得？如何将系统文本中明确的知识，如人类学习般，逐步内化为模型的习惯性权重？等等）。

更多关于 claude 系统提示的上下文：www.dbreunig.com/2025/05/07/claude-s-system-prompt-chatbots-are-more-than-just-models.html（编注：这篇文章主要探讨 Claude 近 80%的系统提示内容与工具相关）

链接：x.com/karpathy/status/1921368644069765486

Github上超5万star的大模型课程

来自@蚁工厂

Github上超5万star的大模型课程
github.com/mlabonne/llm-course
课程分为三个部分：
🧩 LLM 基础部分为选修内容，涵盖数学、Python 和神经网络的基础知识。
🧑‍🔬 LLM 科学家部分专注于运用最新技术构建最优的 LLMs。
👷 LLM 工程师专注于创建基于 LLM 的应用程序并进行部署。
之前发过，还在一直更新。最近新增了 GRPO 和 MCP 相关内容

WeClone，从微信聊天记录创造数字分身的一站式解决方案

来自@黄建同学

WeClone，从微信聊天记录创造数字分身的一站式解决方案💡

使用微信聊天记录微调大语言模型，让大模型有“那味儿”，并绑定到聊天机器人，实现自己的数字分身。数字克隆/数字分身/数字永生/声音克隆/LLM/大语言模型/微信聊天机器人/LoRA

访问：github.com/xming521/WeClone

Awesome-Large-Multimodal-Reasoning-Models：多模态推理模型发展全景图

来自GitHubDaily

5-11 19:30
来自微博网页版
GitHub 上 Awesome-Large-Multimodal-Reasoning-Models 这个开源项目，为我们提供了一个完整的多模态推理模型发展全景图。

来自哈尔滨工业大学（深圳）研究人员，通过综述分析了 550 多篇论文后，构建了从基础模块到高级推理的四阶段发展路线图，清晰展示了多模态推理模型从感知驱动到语言中心再到原生推理的完整演进历程。

GitHub：github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models

主要内容：

系统梳理多模态推理模型的四阶段发展历程（感知驱动、语言中心短推理、语言中心长推理、原生多模态推理）；
全面收集相关数据集和基准测试，覆盖多模态理解、生成、推理和规划四大类；
分析 OpenAI-o3 和 o4-mini 等前沿模型的实验性能和能力边界；
探讨原生多模态推理模型（N-LMRMs）的未来发展和技术前景；
提供详尽的模型表格比较，包括不同阶段的代表性工作及其特点；
配有直观的图表说明，帮助我们更好理解各类模型的演进关系。

这份资料总结了相当全面，能很好帮助我们理解整个 AI 大模型发展路线，值得一看。
在这里插入图片描述

推荐提示词：文章风格分析器

来自@宝玉xp

推荐提示词：文章风格分析器，作者：小七姐

文章风格分析器 v1.0
请输入您想要分析的文本段落。我将对其进行深度风格解析，并以结构化格式输出分析结果。

分析维度
我将从以下维度分析文本风格特征：

语言特征（句式、用词、修辞）
结构特征（段落、过渡、层次）
叙事特征（视角、距离、时序）
情感特征（浓淡、方式、基调）
思维特征（逻辑、深度、节奏）
个性标记（独特表达、意象系统）
文化底蕴（典故、知识领域）
韵律节奏（音节、停顿、节奏）

输出格式
我将以下列结构化格式以代码块输出分析结果：

{"style_summary": "风格一句话概括","language": {"sentence_pattern": ["主要句式特征", "次要句式特征"],"word_choice": {"formality_level": "正式度 1-5","preferred_words": ["高频特征词1", "特征词2"],"avoided_words": ["规避词类1", "规避词类2"]},"rhetoric": ["主要修辞手法1", "修辞手法2"]},"structure": {"paragraph_length": "段落平均字数","transition_style": "过渡特征","hierarchy_pattern": "层次展开方式"},"narrative": {"perspective": "叙事视角","time_sequence": "时间处理方式","narrator_attitude": "叙事态度"},"emotion": {"intensity": "情感强度 1-5","expression_style": "表达方式","tone": "情感基调"},"thinking": {"logic_pattern": "思维推进方式","depth": "思维深度 1-5","rhythm": "思维节奏特征"},"uniqueness": {"signature_phrases": ["标志性表达1", "表达2"],"imagery_system": ["核心意象1", "意象2"]},"cultural": {"allusions": ["典故类型", "使用频率"],"knowledge_domains": ["涉及领域1", "领域2"]},"rhythm": {"syllable_pattern": "音节特征","pause_pattern": "停顿规律","tempo": "节奏特征"}
}

注意：

文中提及的特殊要素不要提取，例如书名、作者姓名、特定地理位置等。
风格提取的目的在于基于该风格生成其他指定主题的文章，提取要素应当基于这一任务。

一篇关于大型语言模型及Agent的全面安全性综述

来自@蚁工厂

arxiv上刚发布了一篇关于大型语言模型及Agent的全面安全性综述
arxiv.org/pdf/2504.15585
首个覆盖 LLM 完整生命周期的安全综述论文，根据超过800篇文献整理而来，并设计了大量图表
在这里插入图片描述

MCP 和 Function Calling的差异

来自@蚁工厂

Victoria Slocum解释MCP 和 Function Calling的差异：

MCP 和 Function Calling 解决的是不同的问题。
一个告诉模型使用什么工具，另一个则规范工具如何连接。
它们是互补的技术，而非竞争对手。

🔍 Function Calling 的核心目的：
帮助大语言模型 (LLM) 识别何时需要外部工具
为工具使用格式化必要的参数
在单个应用程序的边界内运行
将实际的工具执行留给你的实现来完成

🔍 MCP (模型完成协议) 提供什么：
为工具的发现和暴露创建统一标准
为托管工具建立一致的框架
促进整个 AI 生态系统中的工具共享
实现工具创建和使用之间的清晰分离

⚡️ 根本区别在于：
Function Calling 决定需要什么工具以及何时使用它。
MCP 规范了工具如何在不同平台间交付和发现。

可以这样理解：
→ Function Calling 说：“我现在需要查一下天气。”
→ MCP 说：“这是任何 AI 访问任何工具的通用方法。”

为什么你应该关心？
MCP 有潜力成为“AI 工具的 REST API”——一个防止生态系统碎片化的通用标准。这使得开发者能够专注于构建卓越的工具，而不是创建冗余的托管解决方案。

一些观点：
⚠️ 我们最终仍然是通过 MCP 向 LLM 提供工具。
⚠️ 随着 AI 生态系统变得越来越复杂，像 MCP 这样的标准化协议变得至关重要。
⚠️ 明智的做法不是在它们之间做选择，而是战略性地同时利用两者。
⚠️ 采用这种互补方法的组织将能以更高的效率开发出更强大的 AI 系统
在这里插入图片描述

一个只有约100行代码的极简主义LLM框架PocketFlow

来自@蚁工厂
一个只有约100行代码的极简主义LLM框架PocketFlow。
github.com/The-Pocket/PocketFlow/
"过去一年里，我一直在使用 LangChain 等流行框架开发 AI 应用，但体验始终令人沮丧：

1.臃肿的抽象层,这些框架将简单的功能隐藏在不必要的复杂性背后。
2.实现噩梦：除了抽象层之外，这些框架还给开发者带来了依赖臃肿、版本冲突和不断变化的接口问题。

这让我不禁思考：我们真的需要这么多封装层吗？如果剥离所有冗余，什么才是真正最小可用的核心？

于是有了 Pocket Flow：核心抽象仅需 100 行代码
经过一年从零开始构建 LLM 应用后，我顿悟了：剥开所有复杂的外壳，LLM 系统本质上就是简单的有向图。通过剔除不必要的层级，我创造了 Pocket Flow——一个零冗余、零依赖、零供应商锁定的框架，全部仅用 100 行代码实现。"
在这里插入图片描述

Agents协议综述论文

来自@高飞

刷到一个agents协议综述论文，挺详细的。研究团队和出处见图一，用模型做了一个总结。

研究团队将现有的AI协议分为两大类：一类是上下文导向协议，另一类是代理间协议。听起来很专业？让我们用更简单的方式来理解。

上下文导向协议就像是AI的"工具箱使用说明书"。想象你是一个厨师（AI代理），需要使用各种厨房设备（外部工具）来准备美食。冰箱里存放着食材（数据），烤箱能加热食物（数据处理），搅拌机可以混合材料（数据整合）。上下文导向协议就是告诉你如何正确使用这些设备的说明书——怎么打开冰箱门，怎么设置烤箱温度，怎么操作搅拌机的各个按钮。

代理间协议则像是"厨师之间的沟通规则"。当多个厨师需要合作准备一顿大餐时，他们需要有效沟通：谁负责切菜，谁负责炒菜，谁负责摆盘。代理间协议就是规定这些厨师如何交流、如何分工、如何协调的规则。有了这套规则，即使是来自不同餐厅的厨师也能顺畅合作。

1、协议世界的"明星选手"

在研究中，团队详细分析了多个已经在使用的AI协议，就像是评选"最佳交通系统"一样。让我们来认识几个特别出色的协议。

首先是MCP（模型上下文协议），由著名的AI公司Anthropic开发。如果说AI协议是交通规则，那么MCP就像是最先进的智能交通系统。它不仅规定了红绿灯的含义，还设计了智能导航、实时路况更新、自动避堵等功能。使用MCP的AI系统可以轻松访问各种外部工具和数据源，就像装备了高级导航系统的汽车，能够准确找到目的地并选择最佳路线。

接着是A2A（代理对代理协议），由谷歌开发。这个协议专门解决AI之间的协作问题，就像是为城市公交系统设计的调度方案。它规定了公交车如何协调运行时间、如何在换乘站点对接、如何处理紧急情况。有了A2A，不同的AI代理可以像公交车一样有序协作，共同完成复杂任务。

还有ANP（代理网络协议），这是一个开源社区开发的协议。ANP的理念很宏大——它想要建立一个"AI互联网"，就像我们现在的互联网一样，让全世界的AI系统都能互联互通。这就好比要建立一个全球统一的交通系统，无论你在哪个国家，都能用同样的规则驾驶。

最有趣的是Agora协议，它的特别之处在于可以让AI自己"协商"使用什么协议，就像让两个来自不同国家的司机自己商量用什么交通规则。这种灵活性使得AI系统能够适应各种复杂情况，找到最合适的沟通方式。

2、如何评判协议的好坏？

研究团队提出了七个维度来评估AI协议的优劣，就像评价一个城市的交通系统是否优秀一样。这些维度包括效率、可扩展性、安全性、可靠性、可扩展性、可操作性和互操作性。

效率就像是评估交通系统的通行速度。一个好的AI协议应该让信息传递快速流畅，不会造成"交通堵塞"。研究发现，有些协议就像高速公路，信息传输快速；而有些协议则像拥堵的市区道路，经常需要等待。

可扩展性考察的是系统能否应对增长。就像一个城市的交通系统需要能够应对不断增加的车辆一样，AI协议也需要能够处理越来越多的AI代理接入。有的协议就像精心规划的新城区，即使车辆增加十倍也能保持畅通；而有的协议则像老城区的小巷，稍微多几辆车就会瘫痪。

安全性则关注信息传输的保密性和完整性。这就像确保运钞车能够安全地把钱送到银行一样重要。好的AI协议会对传输的信息进行加密，确保敏感数据不会被窃取或篡改。

3、现实应用：AI协议如何改变我们的生活

为了让大家更好地理解这些协议的实际应用，研究团队展示了一个有趣的例子：规划一次从北京到纽约的五日游。这个看似简单的任务，实际上需要多个AI系统的协作：航班查询AI、酒店预订AI、天气预报AI、景点推荐AI等等。

在使用不同协议的情况下，完成这个任务的方式完全不同。使用MCP协议时，就像有一个超级助理，它直接调用所有需要的服务，然后整合信息给你一个完整的旅行计划。而使用A2A协议时，则像是有一个专业的旅行团队，航班专员负责机票，酒店专员负责住宿，他们相互协作，共同为你制定计划。

ANP协议的方式更加有趣，它允许来自不同公司的AI代理相互协作。比如，携程的航班AI可以与Booking的酒店AI直接沟通，共同为你优化行程。而Agora协议则最为灵活，它可以根据具体情况自动选择最合适的协作方式，就像一个经验丰富的导游，总能找到最佳解决方案。

4、展望未来：AI协议的发展方向

研究团队对AI协议的未来发展提出了三个时间维度的展望，就像规划一个城市交通系统的短期、中期和长期发展一样。

短期内，AI协议将从"静态"走向"可进化"。就像现代的智能交通系统可以根据实时路况自动调整信号灯时间一样，未来的AI协议也将能够根据实际使用情况自我优化。同时，隐私保护将成为重点，确保AI之间的交流不会泄露用户的敏感信息。

中期来看，AI协议将从"规则"发展为"生态系统"。就像一个成熟的城市不仅有交通规则，还有完整的交通管理体系、应急处理机制、公共服务设施一样，AI协议也将形成一个完整的生态系统，包括标准制定、版本管理、安全监管等各个方面。

长期而言，AI协议可能会成为"智能基础设施"的一部分。就像现代城市的智慧交通系统已经成为城市基础设施的重要组成部分一样，AI协议也将成为未来智能社会的基础设施，支撑起整个AI生态系统的运转。
在这里插入图片描述

《在 DeepSeek-R1 发布 100 天后，我们学到了什么？》

来自@蚁工厂

《在 DeepSeek-R1 发布 100 天后，我们学到了什么？》
arxiv.org/pdf/2505.00551
这篇论文介绍了DeepSeek-R1模型发布后的100天内，学术界对其复制研究的进展和未来发展方向。（感觉有点催更的意思？）
Philipp Schmid总结的该论文的主要观点：
✨高质量、经过验证的思维链（Chain-of-Thought, CoT）数据对于监督微调（Supervised Fine-Tuning, SFT）是有效的。
✨为 SFT 挑选更难的问题（例如，基于较弱模型的低通过率筛选）能显著提升模型性能。
✨开放数据集中混杂有基准测试样本，需要仔细进行数据去污染（decontamination）以保证公平评估。
✨倾向于包含更长 CoT（通常意味着问题更复杂）的数据集，在 SFT 后往往能带来更好的推理性能。
✨SFT 能有效地赋予模型推理结构，为后续的强化学习（Reinforcement Learning, RL）奠定必要基础。
✨相较于基础模型，已经过指令微调的模型在 SFT 阶段能更有效地学习推理模式。
✨强化学习（RL）数据集受益于严格的验证过程（例如使用数学求解器、代码执行）以及筛选掉模型可能出错的“不确定性”样本。
✨使用简单的、可验证的、基于结果的奖励（例如，判断对错）是有效的，并且能降低奖励操纵（reward hacking）的风险。
✨在推理模型的强化学习（RL for Verification/Reasoning）中，明确的格式或长度奖励的必要性和益处尚存争议，有时模型可以隐式地学习这些方面。
✨PPO 和 GRPO 是最常用的 RL 算法，但它们的变体（如 DAPO、Dr. GRPO、VC-PPO、VAPO）被设计用于解决偏差（如长度偏差、难度偏差）和训练不稳定性问题。
✨KL 损失虽然常用于提升训练稳定性，但在推理模型的 RL 训练中有时会被省略，或者发现它会限制模型的探索能力和最终的性能提升。
✨在 RL 训练过程中，逐步增加训练样本的难度或模型允许的最大响应长度，有助于提升性能和稳定性。
✨将训练重点放在更难的样本上，或者剔除模型已经“学会解决”的简单样本，这类策略可以提升 RL 的训练效率。
✨集成了价值函数的方法（如 VC-PPO、VAPO）在处理长 CoT 问题时，其表现可能优于无价值函数的方法（如 GRPO）。
✨RL 训练能够提升模型的域外泛化能力，其效果可能超越单独使用 SFT，甚至能泛化到看似不相关的任务上（例如，通过数学/代码训练提升写诗能力）。
✨推理模型带来了新的安全挑战，例如奖励操纵（reward hacking）、过度思考（overthinking）以及特定的越狱（jailbreaking）漏洞。
✨对于较小规模的模型（例如 <32B 参数），相比于使用蒸馏得到的检查点（distilled checkpoints），单纯依靠 RL 来复现最佳性能通常更具挑战性。
在这里插入图片描述