【论文解读】START:自学习的工具使用者模型

1st author: ‪Chengpeng Li‬ - ‪Google 学术搜索‬

paper: [2503.04625] START: Self-taught Reasoner with Tools

code: 暂未公布


5. 总结 (结果先行)

大型语言推理模型(Large Reasoning Models, LRMs)在模拟人类复杂推理方面取得了显著进展,特别是通过长链思考(Long Chain-of-Thought, CoT)展现出分解问题、多策略探索等类人认知行为。然而,这些模型单纯依赖内部“默算”的机制,在面对复杂计算、实时信息获取或精确验证时,容易产生幻觉(hallucinations)和计算错误,限制了其在关键任务上的可靠性

START模型贡献在于:

  1. 证明了通过“提示”可以低成本、无须标注地激发LLM的工具使用潜能 (Hint-infer)
  2. 设计了一套有效的自学习框架 (Hint-RFT),能够将这种潜能转化为模型稳定、自主的能力

Hint-infer的巧妙之处在于它利用了LLM已有的潜在能力,通过极低的成本启动了工具学习的正反馈循环。这种“提示-推理-微调”的自学习范式,对于未来构建更强大、更可靠的AI系统具有重要的借鉴意义。

从更广阔的视角看,这项工作对于AI Agent的发展具有重要意义。START所展示的“引导-探索-内化”的学习模式,可能为训练更自主、更全能的AI Agent提供了一条可行的途径。

后续值得探索的方向包括:

  • 更丰富的工具集:将Hint-infer和Hint-RFT扩展到Python解释器之外的更多工具,如搜索引擎、知识库API、物理模拟器等。
  • 动态提示生成:当前提示是人工设计的,未来或许可以探索让模型自身学习生成最有效的“自我提示”来调用工具。
  • 工具选择与组合:当面临多种可用工具时,模型如何学习选择最优工具或工具组合来解决问题。

1. 思想

START的核心思想在于,如何让一个预训练的LRM能够 自我教会 在其长链思考过程中适时且有效地调用外部工具(本文特指Python解释器)。研究者们意识到,直接通过指令或少量示例(few-shot prompting)来引导现有LRM在长链推理中稳定调用工具非常困难。这可能是因为模型在预训练和针对CoT的微调阶段,主要被“教导”去解决问题本身,而非学习何时以及如何求助于外部工具

START的巧妙之处在于它提出了一种 “提示-推断-精炼” 的自学习框架,旨在唤醒并强化模型利用工具的能力。
Figure 1

2. 方法

START的自学习框架包含两个技术提示推断提示拒绝采样微调

  • 提示推断 (Hint-infer)

    • 机制:在LRM进行推理时,于特定位置(例如,在“Alternatively”、“Wait”等表示思考转换的连接词后,或在长CoT结束前)注入人工设计的、与上下文相关的“提示” (hints),例如 “等等,这里用Python算一下也许更好” (Wait, maybe using Python here is a good idea)。
    • 效果:这类提示无需任何示例数据 (demonstration data) 即可有效激发LRM调用外部工具的潜能。对于代码生成任务,提示会更具体,包含代码模板引导模型对测试用例进行本地验证。
    • 扩展:Hint-infer本身也可以作为一种测试时增强(test-time scaling)方法,通过在推理末端多次迭代插入提示,给予模型更多“思考时间”和调用工具的机会来提升性能。

    Figure 3

  • 提示拒绝采样微调 (Hint Rejection Sampling Fine-Tuning, Hint-RFT)
    这是一个两阶段的自学习与微调过程,旨在将Hint-infer诱导出的工具使用行为内化为模型的自身能力。

    1. 阶段一:引导工具感知 (Bootstrapping START-0)

      • 数据合成:使用基础LRM(如QwQ-32B-Preview)配合Hint-infer处理一批训练数据(包含数学、代码等问题)。
      • 筛选与构建 D s e e d D_{seed} Dseed收集那些模型仅在Hint-infer下才解决,并且包含了有效工具调用(Python代码执行)的推理轨迹。这些轨迹经过评分、过滤和必要的修改(如统一Python标识符、移除占位符),形成初始的工具使用示范数据集 D s e e d D_{seed} Dseed
      • 初步微调:在 D s e e d D_{seed} Dseed 上微调基础LRM,得到START-0模型。此时,START-0已经具备了初步的、自我驱动的工具使用意识
    2. 阶段二:强化工具熟练度 (Developing START)

      • 数据增强与提纯:使用START-0模型,在全部训练数据上进行带有拒绝采样的推理,生成更丰富、更多样化的长链工具调用轨迹。对这些轨迹进行评分、过滤重复模式、人工修正不合理内容,保留每个问题至多一个高质量的回答,构成更优的工具使用数据集 D S T A R T D_{START} DSTART
      • 最终微调:在 D S T A R T D_{START} DSTART 上再次微调基础LRM(论文中表述为QwQ-32B-Preview,但逻辑上也可以是START-0),得到最终的START模型,该模型能够更熟练和自主地在长链思考中集成工具使用。

    符号解释:

    D s e e d D_{seed} Dseed:通过Hint-infer生成的、包含成功工具调用的初始高质量轨迹集合。

    D S T A R T D_{START} DSTART:通过START-0模型配合拒绝采样生成的、质量更高、多样性更好的工具调用轨迹集合。

    QwQ-32B-Preview:论文中使用的基础大型语言模型。

    START-0:经过 D s e e d D_{seed} Dseed 初步微调后,具备基本工具使用能力的模型。

    START:经过 D S T A R T D_{START} DSTART 再次微调后,具备更强工具使用能力的最终模型。

3. 优势

  • 显著提升复杂推理能力:通过将精确计算、代码执行与验证等任务外包给Python解释器,有效克服了LRM在这些方面的固有弱点,减少了幻觉。
  • 高效的自学习机制:Hint-infer的引入避免了大规模人工标注工具使用数据的需求,通过“提示”巧妙地诱导出模型的潜在能力,并结合RFT进行强化,实现了低成本的自我进化。
  • 保留并增强长CoT的优点:START并非简单地用工具替代思考,而是在长CoT的框架内有机地集成工具,使得模型既能进行宏观的策略规划,又能借助工具处理微观的复杂执行。
  • 开放性与可复现性:论文基于开源模型进行微调,并详细描述了方法,为社区提供了借鉴。

4. 实验

START在一系列具有挑战性的基准测试上展现了其有效性:

  • 测试平台
    • GPQA:博士级别的科学问答。
    • MATH (AMC23, AIME24, AIME25):竞赛级别的数学问题。
    • LiveCodeBench:竞赛级别的代码生成问题。
  • 实验结果
    • START显著优于其基座模型QwQ-32B-Preview。例如,在AIME25上,从基座的40.0%提升至47.1%;在LiveCodeBench上,从41.4%提升至47.3%。
    • 与业界顶尖模型相比,START的性能与R1-Distill-Qwen-32B(基于671B参数模型蒸馏)和闭源的o1-Preview(可能是指GPT系列模型的某个版本)相当或有所超越。
  • 消融实验与分析
    • Hint-infer的有效性:即便仅仅在测试时对QwQ-32B-Preview使用Hint-infer,也能带来一定的性能提升证明了提示的即时引导作用
    • Long CoT vs. Long TIR:通过对比仅用更多长CoT数据微调的模型(QwQ-RFT)与START,证明了工具调用能力(Long TIR)是性能提升的核心驱动因素,而非仅仅是训练数据量的增加。
    • 测试时提示对START的影响:对已经微调好的START模型在测试时再使用Hint-infer,性能提升不如对基座模型明显。这间接说明START已经较好地内化了工具使用策略,外部提示的边际效益降低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【GitOps】Kubernetes安装ArgoCD,使用阿里云MSE云原生网关暴露服务

🌟 ArgoCD是什么? ArgoCD是一款开源的持续交付(CD)工具,专门为Kubernetes环境设计。它采用GitOps理念,将Git仓库作为应用部署的唯一真实来源(SSOT),实现了声明式的应用部署和管理。 简单来说,ArgoCD就像是一位不知疲倦的"仓库管理员",时刻盯着你的Git仓库,…

三维重建 —— 1. 摄像机几何

文章目录 1. 针孔相机1.1. 针孔成像1.2. 光圈对成像的影响 2. 透视投影相机2.1. 透镜成像2.2. 失焦2.3. 径向畸变2.4. 透视投影的性质 3. 世界坐标系到像素坐标系的变换4. 其它相机模型4.1. 弱透视投影摄像机4.2. 正交投影摄像机4.3. 各种摄像机模型的应用场合 课程视频链接&am…

Linux基本指令(包含vim,用户,文件等方面)超详细

文章目录 Linux 基本指令前序Vim编辑器分为两种设计理念模式转化指令解释 Normal模式移动光标(motion 核心)常用指令 动作(action)常用指令将动作与移动进行组合 查找(正则表达式)替换(substitude)文本对象…

如何彻底删除Neo4j中的所有数据:完整指南

如何彻底删除Neo4j中的所有数据:完整指南 Neo4j作为领先的图数据库,在某些场景下我们需要完全清空数据库中的所有数据。本文将介绍多种删除Neo4j数据的有效方法,涵盖不同版本和部署方式的操作步骤。 一、Neo4j数据删除的常见需求场景 开发…

Keil无法下载程序到STM32 Error: Flash Download failed - Target DLL has been cancelled

背景 Keil通过st-link v2连接STM32,下载报错 Error: Flash Download failed - Target DLL has been cancelled 我有多台STM32需要下载程序,会出现这个问题 原因 应该是Keil保存了设备的相关信息,当换了设备之后下载就会出错 解决办法 断…

CIM和建筑风貌管控平台

2025年的雄安新区,中央绿谷的碧波倒映着现代建筑群,中国星网总部大厦的曲面幕墙与古风飞檐相映成趣。这座“未来之城”的每一处建筑肌理,都离不开一项关键技术——城市信息模型(CIM)与建筑风貌管控平台的支撑。从雄安到…

REBT 分类任务中,`loss`(损失值)和 `logits`(原始预测分数)是什么

REBT 分类任务中,loss(损失值)和 logits(原始预测分数)是什么 在分类任务中,loss(损失值)和 logits(原始预测分数)的含义及计算逻辑可以通过具体示例清晰解释。以下结合你提供的数值(loss=0.7478,logits=[-0.1955, -0.3021])进行说明 一、logits 的本质:未归一化…

6月13日day52打卡

神经网络调参指南 知识点回顾: 随机种子内参的初始化神经网络调参指南 参数的分类调参的顺序各部分参数的调整心得 作业:对于day41的简单cnn,看看是否可以借助调参指南进一步提高精度。 用“烧水调温”的日常场景来打比方: 每个…

穿越时空的刀剑之旅:走进VR刀剑博物馆​

VR 刀剑博物馆不仅仅是一个展示刀剑的场所,更是文化传承与教育的重要基地,在弘扬刀剑文化、增强民族文化认同感以及开展教育活动等方面发挥着不可替代的重要作用。​ 从文化传承的角度来看,刀剑文化源远流长,它承载着不同国家、不…

基于GA遗传优化的PID控制器最优控制参数整定matlab仿真

PID(比例-积分-微分)控制器是工业控制领域中最常用的控制器之一。通过调节PID控制器的三个参数:比例(Kp)、积分(Ki)和微分(Kd),可以实现系统的稳定控制。然而…

华为OD最新机试真题-上班之路-OD统一考试(B卷)

题目描述 Jungle 生活在美丽的蓝鲸城,大马路都是方方正正,但是每天马路的封闭情况都不一样。地图由以下元素组成: .—空地,可以达到 *—路障,不可达到; S—Jungle的家。 T—公司;

大模型驱动数据分析革新:美林数据智能问数解决方案破局传统 BI 痛点

在数字化向智能化跃迁的时代浪潮中,大模型技术正驱动企业数据分析模式迎来颠覆性变革。传统自助式BI工具主导的数据分析模式,虽在降低分析门槛、提升报表开发效率层面发挥了一定作用,但随着数据应用场景的深化,其指标固化、响应滞…

(Note)基于Pytorch手搓RNN参考

Coding a Recurrent Neural Network (RNN) from scratch using PytorchPyTorch RNN from Scratch - Jake Taelearning pytorch 3: coding an RNN, GRU, LSTM | Kaggle

《网络安全与防护》知识点复习

✅ 一、网络安全基础(CIA / AAA / 安全服务) 概念快速记忆CIA 三元组机密性(Confidentiality)、完整性(Integrity)、可用性(Availability)安全服务(OSI)鉴别…

编译,多面体库

1) barvinok是一个用于计算整数点数的库 在参数和非参数多面体以及投影中 这样的集合。 对于参数多面体,计数由以下任一表示 显式函数或生成函数。 第一种是分段阶跃多项式的形式。 这是Ehrhart拟多项式的推广 以及向量分割函数。 第二个是Ehrhart级数的…

Kotlin基础语法一

语言声明变量与内置数据类型 var:数据可变 val: 数据不可变 内置数据类型 String 字符串 Char 单字符 Boolean true/false Int 整形 Double 小数 List 集合 Set 无重复的元素集合 Map 键值对的集合 Kotlin语言的类型推断 val info : String "Hello KT&quo…

无人机避障——感知篇(在Ubuntu20.04的Orin nx上基于ZED2实现Vins Fusion)

设备:Jetson Orin nx 系统:Ubuntu 20.04 双目视觉:zed 2 结果展示: 官网中的rosdep install --from-paths src --ignore-src -r -y如果连不上,可以用小鱼rosdepc进行替换: 安装标定工具: 1、…

从零构建端到端AI天气预测系统:不依赖第三方API的实践指南

引言:自主可控的AI气象解决方案 在当今数据隐私和系统自主性日益重要的背景下,本文将详细介绍如何完全不依赖任何第三方API,从数据采集到模型部署,构建一个完整的本地化AI天气预测系统。这个方案特别适合对数据主权有要求的企业或…

扣子数据库实战案例:搭建AI登记助手

《扣子开发AI Agent智能体应用(人工智能技术丛书)》(宋立桓,王东健,陈铭毅,程东升)【摘要 书评 试读】- 京东图书 在当今的数字化生活场景中,无论是拜访公司还是进入小区,登记信息似乎已经成为…

STA(Station)模式与AP(Access Point)模式

以下是STA(Station)模式与AP(Access Point)模式的核心区别对比表,综合各搜索结果的关键信息整理: 对比维度‌STA模式‌‌AP模式‌角色定位‌无线终端(客户端)无线接入点&#xff08…