多场景游戏AI新突破!Divide-Fuse-Conquer如何激发大模型“顿悟时刻“?

多场景游戏AI新突破!Divide-Fuse-Conquer如何激发大模型"顿悟时刻"?

大语言模型在强化学习中偶现的"顿悟时刻"引人关注,但多场景游戏中训练不稳定、泛化能力差等问题亟待解决。Divide-Fuse-Conquer方法,通过分组训练、参数融合等策略,在18款TextArena游戏中实现与Claude3.5相当的性能,为多场景强化学习提供新思路。

论文标题
Divide-Fuse-Conquer: Eliciting “Aha Moments” in Multi-Scenario Games
来源
arXiv:2505.16401v1 [cs.LG] + https://arxiv.org/abs/2505.16401

文章核心

研究背景

近年来,大语言模型(LLMs)在强化学习(RL)中展现出令人瞩目的推理能力,在数学、编程、视觉等领域通过简单的基于结果的奖励,就能触发类似人类“顿悟时刻”的能力突破。

尽管RL在单场景任务中成效显著,但在多场景游戏领域却面临严峻挑战。游戏场景中,规则、交互模式和环境复杂度的多样性,导致策略常出现“此长彼消”的泛化困境——在某一场景表现优异,却难以迁移至其他场景。而简单合并多场景进行训练,还会引发训练不稳定、性能不佳等问题,这使得多场景游戏成为检验RL与LLMs结合成效的关键领域,也亟需新的方法来突破现有瓶颈。

研究问题

1. 训练不稳定性:多场景游戏中任务分布异质性强,直接应用强化学习易导致训练崩溃,如DeepSeek-R1在场景增多时性能显著下降。

2. 泛化能力不足:简单合并多场景训练时,模型在某一场景表现良好,却难以迁移到其他场景,出现"顾此失彼"的情况。

3. 效率与性能矛盾:统一训练所有场景时,模型可能优先学习简单任务,忽视复杂任务,导致整体优化效率低下且最终性能不佳。

主要贡献

1. 提出Divide-Fuse-Conquer框架:通过启发式分组、参数融合和渐进式训练,系统性解决多场景强化学习中的训练不稳定和泛化问题,这与传统单一训练或简单合并训练的方式有本质区别。

2. 创新技术组合提升训练质量:集成格式奖励塑造、半负采样、混合优先级采样等技术,从稳定性、效率和性能三方面优化训练过程,如半负采样通过过滤一半负样本防止梯度主导,就像在嘈杂环境中过滤掉部分干扰信号。

3. 多场景游戏验证与性能突破:在18款TextArena游戏中,使用Qwen2.5-32B-Align模型训练后,与Claude3.5对战取得7胜4平7负的成绩,证明该框架能有效激发大模型在多场景游戏中的"顿悟时刻"。

方法论精要

框架设计:Divide-Fuse-Conquer的三级递进策略

分组(Divide):根据游戏规则(如固定/随机初始状态)和难度(基础模型胜率是否为零),将18款TextArena游戏划分为4个组。例如,ConnectFour-v0等固定初始状态且基础模型可获胜的游戏归为一组,而LiarsDice-v0等随机初始状态且初始胜率为零的游戏归为另一组,如同将复杂任务按类型和难度分类拆解。

融合(Fuse):采用参数平均策略融合各组最优策略。具体而言,第 k k k组策略参数 θ ( π k ) \theta^{(\pi_k)} θ(πk)与前 k − 1 k-1 k1组合并后的参数 θ ( π ( k − 1 ) ) ) \theta^{(\pi{(k-1)})}) θ(π(k1))) θ ( π ( k ) ) = 1 2 ( θ π ( k − 1 ) + θ π k ) \theta^{(\pi{(k)})} = \frac{1}{2}(\theta^{\pi{(k-1)}} + \theta^{\pi_k}) θ(π(k))=21(θπ(k1)+θπk)融合,使新模型继承跨组知识,类似将不同领域的专家经验整合为“全能选手”。

征服(Conquer):通过GRPO算法对融合模型持续训练,结合多维度优化技术,逐步提升跨场景泛化能力。

核心技术:多维度训练优化组合

奖励机制重构

格式奖励 ( R format ) (R_{\text{format}}) (Rformat):对无效动作(如格式错误)施加-2惩罚,确保模型输出合规,如同考试中规范答题格式。

环境奖励 ( R env ) (R_{\text{env}}) (Renv):按游戏结果赋予1(胜)、0(平)、-1(负),直接反馈游戏胜负。

仓促动作惩罚 ( R step ) (R_{\text{step}}) (Rstep):在获胜场景中,根据轨迹步数 n T n_T nT缩放奖励(如TowerOfHanoi中高效解法获更高分),引导模型避免短视决策。

样本与探索优化

半负采样(Half-Negative Sampling):随机丢弃50%负样本,防止负梯度主导训练,类似在嘈杂数据中过滤干扰。

混合优先级采样(MPS):动态分配采样权重,优先训练中低胜率游戏,如学生重点攻克薄弱科目。

ϵ \epsilon ϵ-greedy扰动与随机种子:以概率 ϵ \epsilon ϵ随机选择动作,并随机初始化环境种子,增强探索多样性,避免陷入局部最优。

实验验证:多场景与基线对比设计

数据集:TextArena平台18款游戏,包括4款单玩家(如TowerOfHanoi-v0)和14款双玩家(如Poker-v0、ConnectFour-v0),覆盖规则简单到复杂的场景。

基线方法

  • Naive-MSRL:直接多场景RL训练;
  • Naive-SSRL:单场景RL训练;
  • Claude3.5:先进大模型基线。

实施细节:使用64张A100 GPU,batch size=1,学习率2e-6,训练100轮,每轮通过自玩收集轨迹数据,结合GRPO算法更新策略,最终以胜率(W/D/L)评估跨场景性能。

实验洞察

跨场景性能突破:Qwen2.5与Claude3.5的对战表现

在18款TextArena游戏中,采用Divide-Fuse-Conquer(DFC-MSRL)训练的Qwen2.5-32B-Align模型展现出显著提升:

  • 单玩家游戏全胜突破:在TowerOfHanoi-v0-medium等场景中,模型从基础版本的0胜率提升至100%胜率,如3层汉诺塔问题中,通过策略优化实现7步内完成移动(传统解法最优步数)。
  • 双玩家游戏竞争力:与Claude3.5对战时,取得7胜4平7负的战绩。其中在ConnectFour-v0中以13胜1平6负显著超越基础模型(4胜2平14负);在Poker-v0中以7胜11平2负实现平局率提升,证明在策略博弈中具备动态决策能力。

效率验证:训练收敛速度与资源优化

  • 对比单/多场景训练:DFC-MSRL在ConnectFour-v0中仅用10轮迭代就达到65%胜率,而Naive-MSRL需30轮才收敛至40%,训练效率提升约3倍。这得益于分组训练减少了跨场景干扰,类似分阶段攻克知识点的学习模式。
  • 采样策略的效率优势:混合优先级采样(MPS)使TowerOfHanoi-v0-medium的有效训练样本增加40%,模型在20轮内即稳定至100%胜率,而均匀采样基线需40轮,验证了“优先攻克薄弱场景”策略的高效性。

消融研究:核心技术的有效性拆解

稳定性优化技术

  • 格式奖励塑造(FR):在Poker-v0中,FR使模型输出有效动作比例(GF)始终维持1.0,而无FR的基线模型在10轮后GF骤降至0.6,出现大量格式错误(如未按“[Action]”格式输出),证明格式约束是训练基石。
  • 半负采样(HN):在TowerOfHanoi-v0中,HN将训练初期的胜率波动从±30%降至±5%,避免负样本主导导致的策略崩溃,如同在学习中过滤掉过多错误示例的干扰。

探索与采样技术

  • ε-greedy扰动(EG):在ConnectFour-v0中,EG=0.3时模型从持续输给Claude3.5(0胜20负)转变为可获胜(5胜1平14负),证明随机探索能帮助模型发现“四子连线”的关键策略,而纯贪心策略易陷入固定思维。
  • 随机种子初始化(RS):在LiarsDice-v0中,RS使模型面对不同初始骰子分布时胜率提升25%,从基线的40%升至65%,验证了多样化初始状态对策略泛化的重要性。

奖励机制优化

  • 仓促动作惩罚(HAP):在TowerOfHanoi-v0-medium中,HAP使模型平均决策步数从12步降至8步(接近最优解),轨迹长度减少33%,表明惩罚机制有效抑制了“盲目试错”行为,引导模型追求高效策略。

Aha Moment

在TextArena游戏中应用GRPO训练时,模型偶现“Aha moments”。表现为胜率显著提升,如ConnectFour-v0从4胜到13胜;响应更深入,token长度增30%;结合惩罚后执行步数减25%,如TowerOfHanoi-v0-medium达最优解,体现从试错到策略推理的突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

佰力博科技与您探讨压电材料的原理与压电效应的应用

压电材料的原理基于正压电效应和逆压电效应,即机械能与电能之间的双向转换特性。 压电材料的原理源于其独特的晶体结构和电-机械耦合效应,具体可分为以下核心要点: 1. ‌正压电效应与逆压电效应的定义‌ ‌正压电效应‌:当压电…

算法备案审核周期

(一)主体备案审核 主体备案审核周期通常为7-10个工作日,监管部门将对企业提交的资质信息进行严格审查,审核重点包括: 营业执照的真实性、有效性及与备案主体的一致性。法人及算法安全责任人身份信息的准确性与有效性…

管理系统的接口文档

一、接口概述 本接口文档用于描述图书管理系统中的一系列 Restful 接口,涵盖图书的查询、添加、更新与删除操作,以及用户的登录注册等功能,方便客户端与服务器之间进行数据交互。 二、接口基础信息 接口地址:https://book-manag…

杰发科技AC7801——PWM获取固定脉冲个数

测试通道6 在初始化时候打开通道中断 void PWM1_GenerateFrequency(void) {PWM_CombineChConfig combineChConfig[1]; //组合模式相关结构体PWM_IndependentChConfig independentChConfig[2];//独立模式相关结构体PWM_ModulationConfigType pwmConfig; //PWM模式相关结构体PWM…

RL电路的响应

学完RC电路的响应,又过了一段时间了,想必很多人都忘了RC电路响应的一些内容。我们这次学习RL电路的响应,以此同时,其实也是带大家一起回忆一些之前所学的RC电路的响应的一些知识点。所以,这次的学习,其实也…

鸿蒙Flutter实战:21-混合开发详解-1-概述

引言 在前面的系列文章中,我们从搭建开发环境开始,讲到如何使用、集成第三方插件,如何将现有项目进行鸿蒙化改造,以及上架审核等内容;还以高德地图的 HarmonyOS SDK 的使用为例, 讲解了如何将高德地图集成…

Vmware ubuntu22.04 虚拟机 连接Windows主机虚拟串口

1. Windows虚拟串口配置 虚拟串口下载:教程网址 虚拟串口使用:教程网址 2. Ubuntu 虚拟串口配置 Vmware ubuntu22.04 虚拟机 连接windows主机虚拟串口_vmware中ttys0连接的是哪个端口-CSDN博客 注意:虚拟添加串口的时候,一直…

编译rk3568的buildroot不起作用

一、环境: 使用kickpi k1开发板,芯片为rk3568。 vmware ubuntu22.04 kickpi给的sdk包,应该不同友商是通用的。 使用的根文件为buildroot 二、问题: 由于 1、wpa_supplicant -D wext -c /etc/wpa_supplicant.conf -i wlan0 …

【动态规划】简单多状态(二)

📝前言说明: 本专栏主要记录本人的基础算法学习以及LeetCode刷题记录,按专题划分每题主要记录:(1)本人解法 本人屎山代码;(2)优质解法 优质代码;&#xff…

如何选择支持AI接入的开发语言与框架

选择支持AI接入的开发语言与框架 在AI系统开发中,语言和框架的选择不仅决定了代码实现方式,更深刻影响模型服务的接入效率、调用方式、性能表现和未来的可维护性。相比传统后端系统的语言选择只需关注并发性能或生态成熟度,AI架构下的开发语言必须同时满足以下几类能力: 具…

计算机视觉与深度学习 | Python实现CEEMDAN-ABC-VMD-DBO-CNN-LSTM时间序列预测(完整源码和数据)

以下是一个结合CEEMDAN、ABC优化VMD、DBO优化CNN-LSTM的完整时间序列预测实现方案。该方案包含完整的数据生成、算法实现和模型构建代码。 完整实现代码 import numpy as np import pandas as pd from PyEMD import CEEMDAN from vmdpy import VMD from sklearn.preprocessing…

React19源码系列之渲染阶段performUnitOfWork

在 React 内部实现中,将 render 函数分为两个阶段: 渲染阶段提交阶段 其中渲染阶段可以分为 beginWork 和 completeWork 两个阶段,而提交阶段对应着 commitWork。 在之前的root.render过程中,渲染过程无论是并发模式执行还是同…

c# 解码 encodeURIComponent

在C#中,如果你需要解码由encodeURIComponent方法编码的URL,你可以使用System.Web命名空间中的HttpUtility.UrlDecode方法。这个方法可以处理由JavaScript的encodeURIComponent方法编码的字符串。 首先,确保你的项目中引用了System.Web命名空…

Python学习心得:代码森林的冒险

第一章:迷雾中的第一步 林然从未想过自己会与代码结缘。那是一个平淡的周六清晨,阳光穿过窗帘,洒在她那台老旧的笔记本电脑上。屏幕上,Python的安装界面静静地等待着她的决定。她是一个文科生,大学主修社会学&#xf…

展示了一个三轴(X, Y, Z)坐标系!

等轴测投影”(isometric projection)风格的手绘风格三维图,即三条坐标轴(x₁, x₂, x₃)看起来彼此垂直、等角分布(通常是 120 夹角),它是常见于教材和数学书籍的 “假三维”表示法。…

计算机网络 - 2.基础协议

1.TCP协议 1.TCP(Transmission Control Protocol):传输控制协议2.TCP协议是一种面向连接的、可靠的、 基于字节流的传输层通信协议 1.面向连接:两个使用TCP协议的应用(通常一个客户和一个服务器)在彼此交换数据包之前必须先建立一个TCP连接2.可靠的 1.数据传输之前都要建立…

前端之vue3创建基本工程,基本登录、注册等功能的完整过程

此文也是为了做一个基本学习用的vue3创建项目的过程,包含基本的登录页面、登出页面、基本的router跳转、axios调用、登录验证等内容。与项目: https://gitee.com/rainpet/java-web-demo/tree/master/spring-security01 可以配套使用。 如下为主要过程。 …

如果有三个服务实例部署在三台不同的服务器上,这三个服务实例的本地缓存,是存储一模一样的数据?还是各自只存一部分?

✅ 答案是:通常每个服务实例都会独立地缓存它自己访问过的数据,这些数据可能是相同的,也可能是不同的,取决于请求的内容。 📌 举个例子说明 假设你有一个商品详情页的服务,部署了 3 个服务实例&#xff08…

九州未来十三载:开源赋能 智启未来

2012年,九州未来以“开源赋能云边变革”为使命,开启中国开放云边基础架构服务的探索之路。十三载坚守深耕,我们始终以开源为翼,以算力为基,在科技浪潮中砥砺前行,见证并推动着AI时代的算力变革。 坚守初心丨…

Axure项目实战:智慧运输平台后台管理端-订单管理1(多级交互)

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:订单管理 主要内容:条件组合、中继器筛选、表单跟随菜单拖动、审批数据互通等 应用场景…