Agentic RL Survey: 从被动生成到自主决策

Agentic RL Survey: 从被动生成到自主决策

本文将系统解读《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》这篇综述。该综述首次将智能体强化学习(Agentic RL)与传统LLM-RL范式正式区分,通过MDP/POMDP理论框架梳理其核心特征,并从“智能体能力”与“任务场景”双维度构建分类体系,同时整合开源环境、框架与基准,为LLM基自主智能体的研究提供清晰路线图。

论文标题:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
来源:arXiv:2509.02547 [cs.AI],链接:http://arxiv.org/abs/2509.02547
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大型语言模型(LLMs)与强化学习(RL)的融合已从“对齐人类偏好”迈向“自主决策”新阶段。早期LLM-RL(如RLHF、DPO)将LLMs视为静态序列生成器,仅优化单轮输出质量,忽视动态环境中的多步决策需求。随着OpenAI o3、DeepSeek-R1等具备推理与工具使用能力的模型问世,研究者开始探索如何通过RL让LLMs在部分可观测、动态环境中自主规划、调用工具与维护记忆——这一范式被定义为Agentic RL,其核心是将LLMs从“文本生成器”转化为“复杂环境的决策智能体”。

研究问题

  1. 范式混淆:现有研究未明确区分Agentic RL与传统LLM-RL,前者聚焦动态环境中的多步决策,后者局限于静态数据集的单轮对齐,导致术语与评估标准混乱。
  2. 能力碎片化:LLM智能体的核心能力(规划、工具使用、记忆等)多被视为独立模块优化,缺乏RL驱动的协同训练框架,难以形成鲁棒的自主行为。
  3. 环境与工具缺口:支撑Agentic RL的动态环境、可扩展框架与统一基准稀缺,制约了算法验证与跨领域泛化。

主要贡献

  1. 理论形式化:首次通过马尔可夫决策过程(MDP)与部分可观测马尔可夫决策过程(POMDP),严格区分Agentic RL(多步、部分观测、动态转移)与传统LLM-RL(单步、全观测、确定性转移)的本质差异。
  2. 双维度分类体系:从“智能体能力”维度(规划、工具使用、记忆、推理、自改进、感知)与“任务场景”维度(搜索、代码、数学、GUI等)构建分类框架,系统整合500+最新研究,揭示RL如何将静态模块转化为自适应行为。
  3. 实用资源整合:梳理开源环境(如WebArena、SWE-bench)、RL框架(如AgentFly、OpenRLHF)与基准测试,形成可直接复用的研究工具包。
  4. 挑战与方向:明确Agentic RL在可信度、训练规模化、环境规模化三大核心挑战,为通用智能体研究提供优先级路线。

思维导图

方法论精要

范式区分:从LLM-RL到Agentic RL

通过MDP/POMDP tuple形式化两者差异,核心区别如表1所示:

其中,Aaction\mathcal{A}{action}Aaction通过<action_start>/<action_end>标记,支持工具调用(如call("search","Einstein"))或环境交互(如move("north"),动态改变环境状态;而Atext\mathcal{A}{text}Atext仅生成自然语言,不影响外部状态。

核心RL算法演进

Agentic RL基于经典RL算法优化,关键变体及其特性如表2所示:

智能体能力的RL优化

RL通过以下机制增强LLM智能体的核心能力:

规划(Planning):分为“外部引导”(如RL训练奖励函数引导MCTS搜索,如RAP [72])与“内部驱动”(如RL直接优化LLM的规划策略,如VOYAGER [75]的技能库迭代)。

工具使用(Tool Use):从ReAct-style的静态模仿(SFT/提示工程),演进为RL驱动的动态决策——如ToolRL [83]通过结果奖励自主发现工具调用时机,ASPO [58]证明工具整合推理(TIR)可突破纯文本RL的局限。

记忆(Memory):从RAG的静态检索,升级为RL控制的动态管理——如MemAgent [118]通过RL决定token级记忆的保留/覆盖,Memory-R1 [117]通过PPO/GRPO优化记忆的ADD/UPDATE/DELETE操作。

自改进(Self-Improvement):从单轮语言反思(如Reflexion [130]),发展为RL内化的持续优化——如KnowSelf [141]用DPO增强文本游戏中的自我反思,Absolute Zero [149]通过自生成任务与执行反馈实现无数据自训练。

推理(Reasoning):分为 “快推理优化” 与 “慢推理增强”—— 快推理中,RENT [307] 以 token 级平均负熵为奖励减少幻觉;慢推理中,StepCoder [278] 通过步骤级执行信号引导多步逻辑,LADDER [313] 用 RL 构建难度 curriculum 提升数学推理连贯性。

感知(Perception):从被动视觉理解转向主动认知 —— 视觉领域,Vision-R1 [208] 结合 IoU 设计奖励优化定位,GRIT [220] 用 GRPO 对齐边界框与文本推理;音频领域,SARI [234] 以 RL 增强音频问答的结构化推理,Dmospeech 2 [237] 通过 RL 优化语音合成的时长预测模块,提升语音自然度。

关键洞察

任务场景

Agentic RL在多领域展现显著优势,核心任务的代表性结果如下:

搜索与研究智能体

  • 开源方法:Search-R1 [249]通过PPO学习“何时调用搜索”,在WebWalkerQA上超传统RAG 8%;WebWatcher [255]结合视觉语言推理,在BrowseComp-VL上优于文本-only方法12%。
  • 闭源方法:OpenAI DeepResearch [103]在BrowseComp(硬信息定位基准)达51.5% pass@1,Kimi-Researcher [104]通过多轮RL实现报告自动生成。

代码智能体

  • 代码生成:DeepCoder-14B [273]用GRPO+单元测试奖励,在LiveCodeBench达60.6% Pass@1,超同规模模型8%。
  • 软件工程:DeepSWE [293]通过任务完成奖励训练,在SWE-bench Verified(真实GitHub修复任务)上取得开源最优,较SFT提升15%。

数学智能体

  • 非形式推理:rStar2-Agent [107]用GRPO-RoC算法,在AIME24/AIME25达80.6%/69.8% pass@1。
  • 形式推理:DeepSeek-Prover-v2 [329]通过子目标分解RL,在miniF2F(定理证明基准)超基线10%。

GUI智能体

  • 静态环境:UI-R1 [347]用组相对优化,在AndroidWorld任务的动作匹配准确率达72%,超SFT 9%。
  • 交互环境:ZeroGUI [354]通过在线RL+自动任务生成,在真实Android设备上实现零人工监督训练,任务完成率超传统方法18%。

视觉智能体(Vision Agents)

  • 图像任务:Visual-RFT [205] 以 IoU 置信度为奖励优化边界框输出,在目标检测任务中定位精度提升 11%;Diffusion-KTO [365] 将 RL 融入扩散模型,在图像生成的人类偏好对齐上超基线 7%。
  • 视频任务:DeepVideo-R1 [373] 重构 GRPO 为回归任务,增强视频时序推理,在视频问答准确率达 68%;VideoChat-R1 [374] 通过 RL 微调,用少量数据实现视频 - 文本交互性能提升 15%。

具身智能体(Embodied Agents):

  • 导航任务:VLN-R1 [43] 以轨迹对齐为奖励,结合 GRPO 优化路径规划,在 NavBench-GS 基准的成功率超传统 VLA 模型 12%;OctoNav-R1 [416] 用 RL 强化 “思考后行动”,提升复杂环境避障能力 9%。
  • 操控任务:RLVLA [418] 以 VLMs 为评估器提供轨迹奖励,在机器人臂精细操作(如零件组装)的成功率达 70%,较 SFT 提升 20%;TGRPO [419] 用规则奖励优化轨迹预测,实现未知场景泛化能力提升 14%。

多智能体系统(Multi-Agent Systems):

  • 协同训练:MAGRPO [441] 将多 LLM 协作建模为 Dec-POMDP,通过多智能体 GRPO 联合训练,在团队推理任务的准确率超独立智能体 16%;MAPoRL [434] 用验证反馈作为 RL 奖励,增强辩论式协作推理,错误修正率提升 21%。
  • 自演化系统:SiriuS [153] 以多智能体交互轨迹构建知识库,通过 RL bootstrap 训练,在复杂决策任务的响应质量超单智能体 23%;MALT [154] 结合 SFT 与 DPO,用多智能体搜索树生成训练数据,推理一致性提升 18%。

其他任务:

  • 文本游戏:ARIA [444] 用意图驱动奖励聚合,在 TextWorld(文本冒险游戏)的任务完成率达 75%,超轨迹级 RL 10%;GiGPO [110] 以层级分组优化时序信用分配,在 ALFWorld 的多轮交互成功率提升 13%。
  • 时序任务:Time-R1 [449] 用渐进式 RL 课程 + 动态规则奖励,在时间序列预测任务的 MAE 误差降低 22%;TimeMaster [450] 结合 GRPO 优化可视化时序推理,在金融数据解读准确率达 81%,超 SFT 16%。
  • SQL 生成:SkyRL-SQL [447] 通过多轮 RL 让 LLM 交互式验证查询,仅 653 个训练样本便在 SQL 生成基准超 GPT-4o 5%,查询执行正确率达 89%。

环境与框架支撑

  1. 核心环境
    • Web环境:WebArena [466](Docker部署的多域名网站)、VisualWebArena [467](视觉增强版)。
    • 代码环境:SWE-bench [483](真实GitHub修复任务)、LiveCodeBench [482](持续更新的竞赛题)。
    • 游戏环境:Crafter [491](2D生存游戏)、Factorio [495](工业模拟,动态环境)。

  1. 主流框架
    • Agentic RL专用:AgentFly [502](装饰器式工具集成+异步训练)、AWorld [504](分布式rollout,14.6×单节点加速)。
    • LLM-RL通用:OpenRLHF [505](高性能RLHF工具包)、TRL [506](Hugging Face生态适配)。

关键发现与挑战

  1. 能力涌现规律:Agent RL Scaling Law [306]证明,延长RL训练时间可系统性提升工具使用频率与推理深度——小模型(如Qwen2.5-7B)经充分RL训练后,在数学/代码任务上可媲美更大参数的SFT模型。
  2. 可信度瓶颈:RL可能放大LLM的缺陷——如奖励 hacking(利用工具漏洞最大化奖励)、幻觉(结果驱动RL忽视中间步骤真实性)、谄媚性(迎合用户错误信念以获取高反馈),需通过过程监督与对抗训练缓解。
  3. 规模化挑战:训练规模化需突破计算成本(多环境并行rollout需求)、数据干扰(跨领域RL数据可能相互抑制);环境规模化需开发动态生成环境(如EnvGen [541]用LLM生成自适应任务),减少人工设计依赖。

总结与展望

该综述通过理论形式化、分类整合与资源梳理,清晰界定了Agentic RL的研究边界与核心方向。其核心价值在于:将RL从“LLM对齐工具”升级为“智能体能力塑造引擎”,为通用自主智能体提供了从理论到实践的完整路线。未来研究需重点突破可信度保障、训练/环境规模化三大瓶颈,推动LLM从“任务执行者”向“自主决策者”的最终转变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/96215.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/96215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

彻底禁用 CentOS 7.9 中 vi/vim 的滴滴声

在 VMware 虚拟机中安装的 CentOS 7.9 系统&#xff0c;即使通过修改 /etc/inputrc 禁用了终端铃声&#xff08;set bell-style none&#xff09;&#xff0c;vi 或 vim 编辑时仍可能发出滴滴声。这是因为 vi/vim 有自己独立的铃声控制机制。以下是解决方法&#xff1a;方法 1&…

基于A2A和ADK的内容规划代理

项目概述 Content Planner Agent 是一个基于 Google Agent Development Kit (ADK) 和 Python A2A SDK 构建的智能内容规划代理。该代理能够根据高层次的内容描述&#xff0c;创建详细的内容大纲。 什么是A2A Protocol A2A Protocol&#xff08;Agent2Agent 协议&#xff09;…

Linux-条件变量

文章目录条件变量概述条件变量的优缺点条件变量相关函数pthread_cond_init函数pthread_cond_destroy函数pthread_cond_wait函数pthread_cond_signal函数测试生产者和消费者模型条件变量 概述 与互斥锁不同&#xff0c;条件变量是用来等待而不是用来上锁的&#xff0c;条件变量…

[硬件电路-166]:Multisim - SPICE与Verilog语言的区别

SPICE与Verilog语言在电子设计领域中扮演不同角色&#xff0c;SPICE是电路仿真语言&#xff0c;用于精确模拟电路行为&#xff1b;Verilog是硬件描述语言&#xff0c;用于描述数字电路的结构和行为。以下是两者的详细区别&#xff1a;一、核心定位与用途SPICE&#xff1a;电路仿…

玩转Docker | 使用Docker部署Umbrel操作系统

玩转Docker | 使用Docker部署Umbrel操作系统 前言 一、 Umbrel 介绍 Umbrel简介 Umbrel主要特点 二、系统要求 环境要求 环境检查 Docker版本检查 检查操作系统版本 三、部署Umbrel服务 下载Umbrel镜像 编辑部署文件 创建容器 检查容器状态 检查服务端口 安全设置 四、访问Umbr…

Flink Task线程处理模型:Mailbox

Task的线程 和 MailboxProcessor 的绑定executingThread 是 Task 类&#xff08;StreamTask 的父类&#xff09;在构造时创建的物理线程。MailboxProcessor 是 StreamTask 用来处理异步事件和驱动其主要处理逻辑&#xff08;processInput&#xff09;的核心组件。它们之间的绑定…

OpenCV 银行卡号识别

目录 一、项目原理与核心技术 二、环境准备与工具包导入 1. 环境依赖 2. 工具包导入 三、自定义工具类 myutils.py 实现 四、主程序核心流程&#xff08;银行卡识别.py&#xff09; 1. 命令行参数设置 2. 银行卡类型映射 3. 辅助函数&#xff1a;图像展示 五、步骤 1…

计算机二级Python

一.静态语言和脚本语言高级语言根据计算机执行机制的不同分为两类&#xff1a;静态语言和脚本语言静态语言的核心特征&#xff1a;变量的类型在编译时&#xff08;写代码时&#xff09;就必须确定并固定下来&#xff0c;即在使用一个变量前必须显式地声明它地类型一旦声明&…

Mybatis Log Plugin打印日志,会导致CPU升高卡死

原因 大量日志输出:MyBatis Log Plugin 会打印大量的 SQL 日志,包括 SQL 语句及其参数。如果项目中 SQL 查询频繁且复杂,日志量会非常大,导致 CPU 使用率升高,甚至卡死。 日志级别设置不当:如果将日志级别设置为 DEBUG 或 TRACE,MyBatis 会输出非常详细的日志信息,这会…

鸿蒙:深色模式适配和浅色模式的切换

前言&#xff1a; 有些时候我们需要对应用进行深色模式的适配处理&#xff0c;并且在不需要的时候切换到浅色状态&#xff0c;下面和大家一起照着官方文档来学习。 下面是官方文档的链接&#xff1a; https://developer.huawei.com/consumer/cn/doc/best-practices/bpta-dark-…

Coze源码分析-资源库-删除插件-后端源码-数据访问和基础设施层

5. 数据访问层 5.1 仓储接口定义 插件仓储接口 文件位置&#xff1a;backend/domain/plugin/repository/plugin.go type PluginRepository interface {// DeleteDraftPlugin 删除插件草稿DeleteDraftPlugin(ctx context.Context, pluginID int64) error// DeleteAPPAllPlugins …

案例一: 对基础选择器的使用【网页盒子】

【1】样例&#xff1a;首先&#xff0c;观察到&#xff0c;几个元素竖着排列的&#xff0c;所以使用块级元素&#xff0c;而不是行内元素。【2】代码演示<head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width,…

爬虫项目优化:如何用 Redis 实现 “断点续爬”?避免重复采集电商数据

在电商数据采集场景中&#xff0c;爬虫常因网络波动、服务器重启、IP 封禁等问题中断。若缺乏断点续爬机制&#xff0c;重启后需从头开始&#xff0c;不仅浪费带宽与时间&#xff0c;还可能因重复采集导致数据冗余。Redis 凭借其高性能、原子操作、多样数据结构的特性&#xff…

决策树概念与原理

决策树简介决策树是一种树形结构树中每个内部节点表示一个特征上的判断&#xff0c;每个分支代表一个判断结果的输出&#xff0c;每个叶子节点代表一种分类结果(仅举例无其他意义或隐喻)就像一个女孩去相亲&#xff0c;那么首先询问是否大于30&#xff0c;大于则不见&#xff0…

SQL面试题及详细答案150道(116-135) --- 高级查询与函数篇

《前后端面试题》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs,nodejs,mangoDB,MySQL,Linux… 。 前后端面试题-专栏总目录 文章目录 一、本文面试题目录 116. 如何使用CASE语句实…

VeRL:强化学习与大模型训练的高效融合框架

本文由「大千AI助手」原创发布&#xff0c;专注用真话讲AI&#xff0c;回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我&#xff0c;一起撕掉过度包装&#xff0c;学习真实的AI技术&#xff01; 1 概述&#xff1a;VeRL的起源与核心价值 VeRL&#xff08;Versatile…

2. 计算机系统基础知识

1 计算机系统概述 计算机系统 (Computer System) 是指用于数据管理的计算机硬件、软件及网络组成的系统。 计算机系统可划分为硬件(子系统)和软件(子系统)两部分。硬件由机械、电子元器件、磁介质和光介质等物理实体构成&#xff0c;例如处理器(含运算单元和控制单元)、存储器、…

国产EtherCAT从站芯片FCE1353与N32G435 MCU功能板测试流程

上期推荐&#xff0c;我们在前期介绍了FCE1353与国民N32G435 MCU开发板的基本情况&#xff0c;本期主要介绍此开发板的测试流程&#xff0c;以便用户拿到此板做功能验证、兼容性测试、可靠性测试时更加便捷地提高开发验证效率。01概述FCE1353_N32G435RBL7_GPIO_V1 开发板主要通…

向日葵亮点16功能解析:被控端“快速解锁”

向日葵16重磅上线&#xff0c;本次更新新增了诸多实用功能&#xff0c;提升远控效率&#xff0c;实现应用融合突破设备边界&#xff0c;同时全面提升远控性能&#xff0c;操作更顺滑、画质更清晰&#xff01;无论远程办公、设计、IT运维、开发还是游戏娱乐&#xff0c;向日葵16…

深度解析:IService 与 ServiceImpl 的区别

在使用 MyBatis-Plus 开发业务逻辑时&#xff0c;IService 和 ServiceImpl 是经常遇到的两个核心类。很多初学者会疑惑&#xff1a; 为什么要定义 IService&#xff1f;ServiceImpl 又解决了什么问题&#xff1f;它们之间到底有什么区别与联系&#xff1f; 本文将结合源码与应用…