DeepCritic: SFT+RL两阶段训练突破LLM自我监督!显著提升大模型的自我批判能力!!

摘要:随着大型语言模型(LLMs)的迅速发展,对其输出进行准确反馈和可扩展监督成为一个迫切且关键的问题。利用LLMs作为批评模型以实现自动化监督是一个有前景的解决方案。在本研究中,我们专注于研究并提升LLMs在数学批评方面的能力。当前的LLM批评模型在每个步骤上提供的批评过于肤浅和表面化,导致判断准确度低,且难以提供足够的反馈来帮助LLM生成器纠正错误。为解决这一问题,我们提出了一个新颖且有效的两阶段框架,用于开发能够针对数学解决方案的每个推理步骤进行深思熟虑的批评的LLM批评模型。在第一阶段,我们利用Qwen2.5-72B-Instruct生成4500条长篇批评作为监督微调的种子数据。每条种子批评包含对每个推理步骤的深思熟虑的分步批评,包括多角度验证以及对初始批评的深入批评。然后,我们使用强化学习对微调后的模型进行训练,使用PRM800K中现有的人工标注数据或通过基于蒙特卡洛抽样的正确性估计获得的自动标注数据,以进一步激励其批评能力。我们基于Qwen2.5-7B-Instruct开发的批评模型不仅在各种错误识别基准测试中显著优于现有的LLM批评模型(包括相同大小的DeepSeek-R1-distill模型和GPT-4o),而且通过更详细的反馈更有效地帮助LLM生成器完善错误步骤。

本文目录

一、背景动机

二、实现方法

3.1 监督式微调(阶段一)

3.2 强化学习(阶段二)

四、实验结论

4.1 性能提升

4.2 测试时扩展性

4.3 弱监督潜力

五、总结


一、背景动机

论文题目:DeepCritic: Deliberate Critique with Large Language Models

论文地址:https://arxiv.org/pdf/2505.00662

当前使用LLM critics 可以生成对 LLM 生成内容的批判,识别其中的缺陷和错误,帮助 LLM 生成器改进输出,从而实现自动监督和持续改进。然而,现有的 LLM critics 在复杂领域(如数学推理任务)中表现出的批判能力有限,其生成的批判往往过于肤浅,缺乏批判性思维,无法提供准确可靠的反馈。例如,它们通常只是重复原始推理步骤的内容,而不是对其进行深入的批判性分析,导致批判结果不准确且缺乏指导性。

该文章提出了一个名为 DeepCritic 的新型两阶段框架,用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明,基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

二、实现方法

3.1 监督式微调(阶段一)

  • 初始批判生成:从 PRM800K 数据集中采样一小部分标注数据作为种子任务输入,利用 Qwen2.5-72B-Instruct 为每个推理步骤生成初始批判。
    • 对于每个步骤,模型生成一个批判和一个判断结果,表示该步骤的正确性。

    • 生成过程是独立的,即每次只针对一个步骤进行批判,而不是直接生成整个解决方案的批判。

    • 生成的初始批判通常较为简略,主要跟随原始推理步骤的逻辑进行验证。

  • 深入批判生成:基于初始批判,进一步生成深入批判,从不同角度验证推理步骤的正确性,或对初始批判本身进行批判性分析。
    • 基于问题 P、解决方案 S 和初始批判,再次利用 Qwen2.5-72B-Instruct 模型生成深入批判和判断结果。

    • 深入批判的目标是从不同角度验证推理步骤的正确性,或对初始批判本身进行批判性分析,以发现初始批判中的潜在错误。

  • 最终批判合成:将初始批判和深入批判合并为一个长篇批判,形成完整的解决方案批判。
    • 利用 Qwen2.5-72B-Instruct 模型,将初始批判和深入批判合并为一个最终批判 cfinali​。

    • 合并过程中,模型会添加一些过渡性的、反思性的语句,使批判内容更加连贯和深入。

    • 最终批判不仅包含对每个步骤的详细分析,还可能包含对初始批判的修正和补充。

  • 监督微调:使用上述生成的批判数据对目标模型进行监督式微调,使模型能够进行多视角评估和自我反思。

3.2 强化学习(阶段二)

  • 数据准备
    • 人类标注数据:如果现成的人类标注数据可用(如 PRM800K),直接使用这些数据进行强化学习。

    • 自动标注数据:如果没有人类标注数据,通过蒙特卡洛采样估计每个推理步骤的正确性,自动生成标注数据。

      • 对于每个问题,生成多个逐步解决方案,并通过蒙特卡洛采样估计每个步骤的正确性。

      • 如果某个步骤在大多数采样路径中都被认为是错误的,则将其标注为错误;否则标注为正确。

  • 强化学习优化
    • 奖励机制:如果模型的最终判断结果正确,则给予奖励 1.0;否则给予奖励 0.0。

    • 训练目标:通过强化学习,进一步提升模型的批判能力,使其能够更准确地识别错误并提供详细反馈。

四、实验结论

4.1 性能提升

DeepCritic 在多个错误识别基准测试中显著优于现有的 LLM critics 和过程奖励模型(PRMs),在 6 个测试集中有 5 个测试集的性能超过了 GPT-4o 和其他基线模型。如在 MR-GSM8K 数据集上,DeepCritic-7B-RL-PRM800K 的 F1 分数达到了 77.3%,显著高于其他基线模型,如 Qwen2.5-7B-Instruct(48.1%)和 GPT-4o(69.7%)。

4.2 测试时扩展性

DeepCritic 在测试时表现出良好的扩展性。通过增加测试时的采样次数,批判模型的判断准确性一致提高,如使用 8 次采样的多数投票(Maj@8)将 DeepCritic-7B-RL-PRM800K 的 F1 分数从 77.3% 提升到 78.7%

DeepCritic 通过提供详细反馈帮助 LLM 生成器修正错误,有效提升 LLM 生成器的性能,在 MATH500 数据集上,使用 DeepCritic 的反馈进行修正后,Qwen2.5-7B-Instruct 的准确率从 74.0% 提升到 77.2%

4.3 弱监督潜力

DeepCritic 展示了弱监督的潜力,在 MATH500 数据集上,DeepCritic-7B-RL 能够有效监督 Qwen2.5-72B-Instruct 的输出,帮助其修正错误,提升整体性能。

五、总结

文章提出了一种有效的两阶段训练范式,通过监督式微调和强化学习显著提升了 LLMs 的数学批判能力。DeepCritic 模型不仅在多个基准测试中表现出色,还展示了在测试时扩展和弱监督方面的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86602.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】深度学习中的张量:从多维数组到智能计算单元

✅ 一、n维数组(张量,Tensor) 1. 定义 张量(Tensor)是一个通用的n维数组数据结构。 它的维度(维数)决定了它的形状,例如: 维度名称举例说明0维标量(scalar…

以太网MDI信号PCB EMC设计要点

1. PHY侧和RJ45连接器侧通用MDI布局建议 1. MDI差分对保持对称走线,走线上的焊盘封装应一致,焊盘放置位置也应对称。可以减少EMI测试中的模式转换。   2. MDI走线应保持阻抗匹配,从而减少信号线上的反射。   3. MDI走线下需有连续完整的接…

深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙

WebGL:在浏览器中解锁3D世界的魔法钥匙 引言:网页的边界正在消失 在数字化浪潮的推动下,网页早已不再是静态信息的展示窗口。如今,我们可以在浏览器中体验逼真的3D游戏、交互式数据可视化、虚拟实验室,甚至沉浸式的V…

pysnmp模块中 GET、SET、WALK操作详细分步解析

1. SNMP GET 操作详解 1.1 核心代码结构 from pysnmp.hlapi import *# 定义参数 community public # SNMPv2c 社区名 target_ip 192.168.1.1 # 目标设备 IP oid 1.3.6.1.2.1.1.1.0 # 要查询的 OID# 发起 GET 请求 error_indication, error_status, error_index, …

接收rabbitmq消息

以下是一个使用纯Java&#xff08;非Spring Boot&#xff09;接收RabbitMQ消息的完整实现&#xff0c;包含Maven依赖和持续监听消息的循环&#xff1a; 1. 首先添加Maven依赖 (pom.xml) <dependencies><!-- RabbitMQ Java Client --><dependency><group…

SQL进阶之旅 Day 23:事务隔离级别与性能优化

【SQL进阶之旅 Day 23】事务隔离级别与性能优化 文章简述 在数据库系统中&#xff0c;事务是确保数据一致性和完整性的核心机制。随着业务复杂度的提升&#xff0c;如何合理设置事务隔离级别以平衡并发性能与数据一致性成为开发人员必须掌握的关键技能。本文深入解析事务隔离级…

六.原型模式

一.原型模式的定义 原型模式是一种创建型设计模式&#xff0c;通过复制现有对象&#xff08;原型&#xff09;生成新对象&#xff0c;避免重复初始化成本。需了解以下关键概念&#xff1a; ‌浅拷贝‌&#xff1a;复制基本类型字段&#xff0c;引用类型字段共享内存地址&#…

【笔记】LoRA 理论与实现|大模型轻量级微调

论文链接&#xff1a;LoRA: Low-Rank Adaptation of Large Language Models 官方实现&#xff1a;microsoft/LoRA 非官方实现&#xff1a;huggingface/peft、huggingface/diffusers 这篇文章要介绍的是一种大模型/扩散模型的微调方法&#xff0c;叫做低秩适应&#xff08;也就是…

Cilium动手实验室: 精通之旅---15.Isovalent Enterprise for Cilium: Network Policies

Cilium动手实验室: 精通之旅---15.Isovalent Enterprise for Cilium: Network Policies 1. 环境信息2. 测试环境部署3. 默认规则3.1 测试默认规则3.2 小测验 4. 网络策略可视化4.1 通过可视化创建策略4.2 小测试 5. 测试策略5.1 应用策略5.2 流量观测5.3 Hubble观测5.4 小测试 …

opencv RGB图像转灰度图

这段代码的作用是将一个 3通道的 RGB 图像&#xff08;CV_8UC3&#xff09;转换为灰度图像&#xff08;CV_8UC1&#xff09;&#xff0c;并使用 OpenCV 的 parallel_for_ 对图像处理进行并行加速。 &#x1f50d; 一、函数功能总结 if (CV_8UC3 img.type()) {// 创建灰度图 d…

React Hooks 的原理、常用函数及用途详解

1. ​​Hooks 是什么&#xff1f;​​ Hooks 是 React 16.8 引入的函数式组件特性&#xff0c;允许在不编写 class 的情况下使用 state 和其他 React 特性&#xff08;如生命周期、副作用等&#xff09;。​​本质是一类特殊函数​​&#xff0c;它们挂载到 React 的调度系统中…

学习路之PHP--webman协程学习

学习路之PHP--webman协程学习 一、准备二、配置三、启动四、使用 协程是一种比线程更轻量级的用户级并发机制&#xff0c;能够在进程中实现多任务调度。它通过手动控制挂起和恢复来实现协程间的切换&#xff0c;避免了进程上下文切换的开销 一、准备 PHP > 8.1 Workerman &g…

linux libusb使用libusb_claim_interface失败(-6,Resource busy)解决方案

linux libusb使用libusb_claim_interface失败&#xff08;-6&#xff0c;Resource busy&#xff09;解决方案 ✅ 问题原因&#x1f6e0;️ 解决方案&#x1f538; 方法一&#xff1a;分离内核驱动 libusb_detach_kernel_driver()&#x1f538; 方法二&#xff1a;使用 usb-devi…

使用mpu6500/6050, PID,互补滤波实现一个简单的飞行自稳控制系统

首先&#xff0c;参考ai给出的客机飞机的比较平稳的最大仰府&#xff0c;偏转&#xff0c;和防滚角度&#xff0c;如下&#xff1a; 客机的最大平稳仰俯&#xff08;Pitch&#xff09;、偏转&#xff08;Yaw&#xff09;和防滚&#xff08;Roll&#xff09;角度&#xff0c;通…

深度解析AD7685ARMZRL7:16位精密ADC在低功耗系统中的设计价值

产品概述 AD7685ARMZRL7是16位逐次逼近型&#xff08;SAR&#xff09;ADC&#xff0c;采用MSOP-10紧凑封装。其核心架构基于电荷再分配技术&#xff0c;支持2.3V至5.5V单电源供电&#xff0c;集成低噪声采样保持电路与内部转换时钟。器件采用伪差分输入结构&#xff08;IN/-&a…

EXCEL 实现“点击跳转到指定 Sheet”的方法

&#x1f4cc; WPS 表格技巧&#xff1a;如何实现点击单元格跳转到指定 Sheet 在使用 WPS 表格&#xff08;或 Excel&#xff09;时&#xff0c;我们经常会希望通过点击一个单元格&#xff0c;直接跳转到工作簿中的另一个工作表&#xff08;Sheet&#xff09;。这在制作目录页…

Python格式化:让数据输出更优雅

Python格式化&#xff1a;让数据输出更优雅 Python的格式化功能能让数据输出瞬间变得优雅又规范。不管是对齐文本、控制数字精度&#xff0c;还是动态填充内容&#xff0c;它都能轻松搞定。 一、基础格式化&#xff1a;从简单拼接开始 1. 百分号&#xff08;%&#xff09;格式…

2025年渗透测试面试题总结-小鹏[实习]安全工程师(题目+回答)

安全领域各种资源&#xff0c;学习文档&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具&#xff0c;欢迎关注。 目录 小鹏[实习]安全工程师 1. 自我介绍 2. 有没有挖过src&#xff1f; 3. 平时web渗透怎么学的&#xff0c;有…

VSCode科技风主题设计详细指南

1. 科技风设计的核心特点 科技风设计是一种强调未来感、现代感和高科技感的设计风格,在VSCode主题设计中,可以通过以下几个核心特点来体现: 1.1 色彩特点 冷色调为主:蓝色、紫色、青色等冷色调是科技风设计的主要色彩高对比度:深色背景配合明亮的霓虹色,形成强烈的视觉…

android知识总结

Activity启动模式 standard (标准模式) 每次启动该 Activity&#xff08;例如&#xff0c;通过 startActivity()&#xff09;&#xff0c;系统总会创建一个新的实例&#xff0c;并将其放入调用者&#xff08;启动它的那个 Activity&#xff09;所在的任务栈中。 singleTop (栈…