[论文阅读] 人工智能 | 利用负信号蒸馏:用REDI框架提升LLM推理能力

【论文速读】利用负信号蒸馏:用REDI框架提升LLM推理能力

论文信息

arXiv:2505.24850  cs.LG cs.AI cs.CL
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Authors: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

一、研究背景:被浪费的“错误宝藏”

想象你在学数学题,老师只给你看正确解答,却从不讲解错误思路为啥错——这时候你可能会疑惑:“我怎么知道自己哪里容易踩坑?”
大语言模型(LLM)的蒸馏训练就面临类似问题。传统方法(如拒绝采样)只保留老师模型生成的正确推理痕迹(正样本),扔掉错误推理痕迹(负样本)。但这些负样本里藏着大量“避坑指南”:比如模型常犯的逻辑错误、边界条件遗漏等。
举个例子,在数学推理中,老师模型可能试过错误的公式套用或步骤顺序,这些失败案例对小模型学习“如何避免犯错”至关重要。但现有方法白白浪费了这些信息,导致小模型只能“学正确答案”,却“不懂错误根源”,推理能力提升有限。

二、创新点:让错误成为“学习信号”

这篇论文的核心突破是:首次系统利用负样本进行强化蒸馏,提出两阶段框架REDI(Reinforcement Distillation),解决了三大问题:

  1. 负样本利用率低:传统方法丢弃负样本,REDI将其转化为可学习的损失信号。
  2. 稳定性与性能的矛盾:现有方法(如DPO)依赖KL散度正则化,高正则化虽稳定但限制性能,低正则化则容易训练崩溃。REDI通过非对称加权损失(α参数)平衡两者,既避免崩溃又提升峰值性能。
  3. 数据效率低下:用更少数据(131k正负样本)超越需800k专有数据的模型,开源数据也能训出SOTA。

三、研究方法和思路:两步走的“纠错学习法”

阶段1:用正确答案打基础(SFT)

  • 目标:让小模型先学会“正确推理的样子”。
  • 方法:用正样本(老师的正确推理痕迹)进行监督微调(SFT),优化目标是最大化生成正确痕迹的概率:
    在这里插入图片描述
  • 作用:建立基础推理能力,作为后续优化的起点。

阶段2:用错误答案做强化(REDI目标函数)

  • 目标:让小模型学会“识别错误”,避免重复老师的失误。
  • 方法:引入负样本,设计非对称加权损失函数,同时优化两个方向:
    • 最大化正样本概率:让正确推理更可能被生成。

    • 最小化负样本概率:抑制错误推理,但通过参数α降低负样本的梯度权重(α∈[0,1]),避免过度惩罚导致模型“不敢推理”。
      损失函数:
      在这里插入图片描述

    • α的作用:α=1时等价于对称损失(易崩溃),α=0时退化为仅用正样本。实验发现α=0.8时平衡最佳。

实验验证:小数据也能超越大厂模型

  • 数据:从Open-R1数据集提取78k正样本(D_SFT)和53k正负样本对(D_Pref),总数据量131k。
  • 对比模型
    • 基线:SFT(仅正样本)、SFT+DPO/SimPO(传统强化方法)。
    • 竞品:DeepSeek-R1-Distill-Qwen-1.5B(用800k专有数据训练)。
  • 结果
    • Qwen-REDI-1.5B在MATH-500基准上达到83.1%准确率(pass@1),超过DeepSeek-R1-Distill-Qwen-1.5B的83.2%,且数据量仅为其1/6。
    • 消融实验显示,REDI的非对称加权比对称损失(α=1)更稳定,比DPO/SimPO性能提升1-2%。

四、主要贡献:三大突破推动LLM蒸馏

  1. 方法论创新:提出REDI框架,首次在离线蒸馏中有效利用负样本,打破“负样本=无用数据”的固有认知。
  2. 性能提升:用开源数据实现1.5B模型SOTA,数据效率提升6倍,为小团队和开源社区提供低成本方案。
  3. 理论分析:揭示DPO等方法中KL正则化的“性能-稳定性”矛盾,为未来损失函数设计提供方向。

五、总结:错误是最好的老师

这篇论文证明,LLM的“错误”不是垃圾,而是珍贵的学习信号。REDI通过“先学对、再辨错”的两步法,让小模型既能掌握正确推理模式,又能识别常见错误,实现了推理能力的跨越式提升。更重要的是,其数据高效性(131k样本)和开源友好性(基于Open-R1),让更多研究者能复现和改进,推动LLM推理能力向低成本、高效化方向发展。

未来,REDI框架可进一步与在线RL结合,形成“离线蒸馏+在线优化”的完整链路,或许能解锁更复杂的推理场景——毕竟,连错误都能被利用的模型,才是真正“会学习”的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cursor 1.0正式推出:全面解析你的AI 编程助手

目录 前言 一、BugBot:你的私人代码审查专家 二、Background Agent:7x24小时在线的云端开发伙伴 三、Jupyter Notebook 深度集成:数据科学家的福音 四、记忆功能 (Memories):让 AI 更懂你的项目 五、MCP 与工具生态&#xf…

QILSTE 精巧电子元件H4-108FO/5M解析

型号:H4-108FO/5M 在电子元件的浩瀚宇宙中,H4-108FO/5M 仿佛一颗散发着独特光芒的恒星,其参数和特性交织成一张错综复杂的网络,既令人困惑又充满惊喜。这款型号的产品,以其 1.60.80.4mm 的微小尺寸,却蕴含…

第2章_Excel_知识点笔记

Excel 知识点总结(第2章) 来自:第2章_Excel_知识点笔记,原笔记 基础操作 状态栏:快速查看计数/求和等数据(右键可配置)。筛选(CtrlShiftL):按条件显示数据…

【学习笔记】单例类模板

【学习笔记】单例类模板 一、单例类模板 以下为一个通用的单例模式框架,这种设计允许其他类通过继承Singleton模板类来轻松实现单例模式,而无需为每个类重复编写单例实现代码。 // 命名空间(Namespace) 和 模板(Tem…

yolo 训练 中间可视化

yolo训练前几个batch&#xff0c;会可视化target: if plots and ni < 33:f save_dir / ftrain_batch{ni}.jpg # filenameplot_images(imgs, targets, paths, f, kpt_labelkpt_label)

【Linux】虚拟机代理,自动化脚本修改~/.bashrc

二选一执行 {echo ""echo "# Cla Verge代理设置 "echo "alias use-proxyexport http_proxy\"socks5h://192.168.88.1:7897\"; export https_proxy\"socks5h://192.168.88.1:7897\""echo "alias use-proxy-httpexport…

JavaScript 原型与原型链:深入理解 __proto__ 和 prototype 的由来与关系

引言 在 JavaScript 的世界中&#xff0c;原型和原型链是理解这门语言面向对象编程&#xff08;OOP&#xff09;机制的核心。不同于传统的基于类的语言如 Java&#xff0c;JavaScript 采用了一种独特的原型继承机制。本文将深入探讨 __proto__ 和 prototype 的由来、关系以及它…

Linux非管理员用户安装python环境

目录 1. 下载2. 解压3. 配置并指定安装路径&#xff08;本地用户目录&#xff09;4. 编译&#xff08;不安装系统目录&#xff09;5. 安装到本地用户目录6. 添加 Python 到环境变量7. 验证安装是否成功 1. 下载 版本根据需要自行指定 cd /tmp wget https://www.python.org/ft…

猎板PCB:建滔PCB板材怎么样?

在电子元器件的精密世界中&#xff0c;PCB板材如同骨骼般支撑着整个产品的性能与寿命。面对市场上琳琅满目的品牌选择&#xff0c;建滔积层板凭借三十余年技术沉淀&#xff0c;逐渐成为行业工程师与采购方口中的“品质代名词”。今天&#xff0c;我们不谈参数堆砌&#xff0c;只…

ONLYOFFICE协作空间3.1.1 企业版 介绍及部署说明:家庭云计算专家

ONLYOFFICE协作空间3.1企业版是一款专为深度集成需求设计的开源解决方案&#xff0c;其核心功能聚焦于安全性与灵活性。该版本支持私有化部署&#xff0c;允许企业将协作空间嵌入自有服务器并实现品牌定制化&#xff0c;满足对数据主权和品牌一致性的严苛要求。 在安全方面&…

接IT方案编写(PPT/WORD)、业务架构设计、投标任务

1、IT 方案编写&#xff08;PPT/WORD&#xff09;​ 定制化方案&#xff1a;根据客户需求&#xff0c;提供涵盖云计算、大数据、人工智能等前沿技术领域的 PPT/WORD 方案编写服务&#xff0c;精准提炼核心价值&#xff0c;呈现专业技术内容。​ 逻辑清晰架构&#xff1a;采用…

前端面试之变量与数据类型

目录 一、声明变量 &#xff08;1&#xff09;let &#xff08;2&#xff09;const &#xff08;3&#xff09;var var、let 和 const 的作用域差异 二、数据类型 &#xff08;1&#xff09;基本类型 undefined和null String 模板字符串拼接&#xff1a; number和b…

python queue

Python中的queue模块提供了多种队列实现&#xff0c;主要用于线程间安全通信。以下是主要用法&#xff1a; 基本队列类型&#xff1a; Queue&#xff1a;先进先出(FIFO)队列LifoQueue&#xff1a;后进先出(LIFO)队列&#xff0c;即栈PriorityQueue&#xff1a;优先级队列 常用方…

Linux驱动:class_create、device_create

udev是什么 动态管理设备文件 传统的 Linux 系统通过静态创建 /dev 目录下的设备文件&#xff08;如早期的 mknod 命令&#xff09;&#xff0c;但现代系统中硬件设备&#xff08;如 USB 设备、存储设备、串口等&#xff09;热插拔频繁&#xff0c;udev 可实时响应设备事件&…

【vLLM 学习】Cpu Offload Lmcache

vLLM 是一款专为大语言模型推理加速而设计的框架&#xff0c;实现了 KV 缓存内存几乎零浪费&#xff0c;解决了内存管理瓶颈问题。 更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/ *在线运行 vLLM 入门教程&#xff1a;零基础分步指南 源码 examples/offline_inf…

基于深度强化学习的Scrapy-Redis分布式爬虫动态调度策略研究

在大数据时代&#xff0c;网络数据的采集与分析变得至关重要&#xff0c;分布式爬虫作为高效获取海量数据的工具&#xff0c;被广泛应用于各类场景。然而&#xff0c;传统的爬虫调度策略在面对复杂多变的网络环境和动态的抓取需求时&#xff0c;往往存在效率低下、资源浪费等问…

openlayers实现可拖拽的节点(类似知识图谱)

/** * 本文介绍了实现知识图谱可视化的技术方案&#xff0c;主要分为两个图层实现&#xff1a; * 1、线图层 不拖动 * 2、点图层 需要拖动 */ 线图层 - 负责绘制静态连接线&#xff0c;使用LineString创建线要素并添加到矢量图层&#xff1b; // 线图层 export function add…

酷黑NBA足球赛事直播源码体育直播M39模板赛事源码

源码名称&#xff1a;NBA足球赛事直播源码酷黑体育直播M39模板赛事源码 开发环境&#xff1a;帝国cms7.5 空间支持&#xff1a;phpmysql 带软件采集&#xff0c;可以挂着自动采集发布&#xff0c;无需人工操作&#xff01; 演示地址&#xff1a;https://www.52muban.com/shop…

Verilog编程技巧01——如何编写三段式状态机

前言 Verilog编程技巧系列文章将聚焦于介绍Verilog的各种编程范式或者说技巧&#xff0c;编程技巧和编程规范有部分重合&#xff0c;但并非完全一样。规范更注重编码的格式&#xff0c;像变量命名、缩进、注释风格等&#xff0c;而编程技巧则更偏重更直观易读、更便于维护、综合…

豆包和deepseek 元宝 百度ai区别是什么

豆包、DeepSeek、元宝和百度 AI 有以下区别&#xff1a; 开发公司 豆包5&#xff1a;由字节跳动公司基于云雀模型开发。DeepSeek4&#xff1a;是深度求索打造的开源多模态大模型。元宝1&#xff1a;是腾讯混元模型的落地产品&#xff0c;整合了 DeepSeek - R1 与混元模型。百…