DPO训练中的logit scale 与 reward shift 偏置问题以及可能的解决方案

Logit Scale Bias(Logit 放缩偏置)

  1. 定义:
    Logit scale 偏置指的是,不同模型(如 Actor 与 Reference)之间输出的 logit 的数量级(scale)不一致,导致 log-prob 或 log-ratio 计算偏差。
  2. 举例说明
    • 当前策略模型(Actor)输出:logits ≈ [3.2, 1.1, 0.4, …] → 比较 confident
    • Reference 模型输出: logits ≈ [0.6, 0.5, 0.2, …] → 比较均匀
    • 则两者的 log prob 差异会很大,但实际上可能只是 softmax 温度不同或 batch norm 不一致
  3. 结果
    • log(πactor)/πref=log−ratio被人为的放大log(\pi_{actor})/\pi_{ref}=log-ratio 被人为的放大log(πactor)/πref=logratio被人为的放大
    • DPO loss 变得过于激进或震荡
    • 导致训练不稳定或”熵崩溃“ (Entropy collapse)

Reward Shift Bias(奖励偏移问题)

  1. 定义
    指的是由于数据分布、模型参数或 batch 样本差异,导致 每批次样本的 log-ratio 平均值有显著偏移
  2. 举例说明:
    • 某个 batch 的 log(π_actor / π_ref) 偏向全为正值,表示 actor 极度偏向 chosen,损失变得极低或无梯度。
    • 另一个 batch 偏向负值,DPO loss 会变得极高
  3. 后果
  • 模型更新过快或者过慢(learning rate mismatch)
  • loss variance 大,收敛变慢甚至崩溃
  • learning signal 不稳定,影响模型泛化能力

在DPO中如何出现的

在这里插入图片描述
DPO中,bias 来源的关键点

来源说明
模型初始化差异Actor 初始化可能是微调过的,Reference 是 SFT,logits 分布不同。
Softmax 温度不一致不同模型输出概率分布 sharpness 不一样。
训练 batch 之间样本分布不均某 batch 里 response 长、另一个短,影响 reward sum。
过拟合或奖励驱动过强Actor 学得太快,偏好 chosen 太多。

应对策略

项目含义在 DPO 中表现应对方法
Logit scale bias不同模型 logits 范围差异大log prob ratio 被放大或缩小,训练过激或钝化限制温度、使用 delta、对抗训练
Reward shift bias不同 batch 中平均 reward 偏移训练波动大,容易过拟合某些 batch使用移动平均 delta,或 normalized loss

解决方案

  • BCO-Pair(Bias-Corrected Optimization)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/87391.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/87391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再见 RAG?Gemini 2.0 Flash 刚刚 “杀死” 了它!

最近谷歌发布了 Gemini 2.0 Flash,说实话,它可能是目前市面上性价比最高的 AI 模型了。 许多人写过关于 RAG 可能不再需要的文章,也可以看到人们在讨论它。有些人理解,有些人不理解,还有些人非常担心。 所以让我们解…

PDF的图片文字识别工具

PDF的图片文字识别工具是一款完全免费的PDF OCR识别软件,软件支持“单文件选择、多文件批量选择、文字预处理、结果后处理、Word导出”等功能。 选择你想要识别的PDF,软件就自动的开始识别PDF内容,识别后的文字在软件的下方有内容预览。 注意…

SQLite不够用?视频汇聚系统EasyCVR切换MySQL数据库的关键参数怎么调?

一、为什么需要将EasyCVR从SQLite切换到MySQL? EasyCVR默认使用的SQLite数据库属于轻量级嵌入式数据库,适合小型项目或设备量较少的场景(通常建议设备通道数≤200)。当设备通道数超过200或需要支持高并发访问、海量数据存储时&am…

【AI成长会】ubuntu 安装运行rust

在Ubuntu上用Rust编写第一个程序 从你的输出可以看出,Rust已经成功安装在你的Ubuntu系统上了。现在我们来编写并运行第一个Rust程序,整个过程需要几个简单的步骤: 一、配置Shell环境(如果需要) 虽然安装提示可能需要…

两个手机都用同个wifi,IP地址会一样吗?如何更改ip地址

会的。两个手机连接同一个 WiFi 路由器,它们的 IP 地址通常一样的。 一、原因如下: 你看到的 IP 地址有两种: 内网 IP 地址(局域网 IP): 这是路由器分配给你手机在家庭或办公室内部网络使用的地址。通常格…

十六、windows系统安全-----账号克隆和隐藏

环境 windows server 2012 步骤 1.查看当前用户账号cmd 命令net user,或在计算机管理界面查看 2.查看具体用户信息 net user 用户名 3.新建隐藏用户 net user shiyan$ qwe123 /add **4.添加用户组 net localgroup administrators shiyan$ /add**将刚才创建的隐藏…

【安全有效新方案】WSL 默认路径迁移实战:通过 PowerShell 符号链接实现自动重定向

WSL 默认路径迁移实战&#xff1a;通过 PowerShell 符号链接实现自动重定向 在使用 WSL&#xff08;Windows Subsystem for Linux&#xff09;的过程中&#xff0c;许多用户会遇到 C 盘空间被 WSL 发行版不断占用的问题。这是因为 WSL 默认将发行版存储在C:\Users\<用户名&…

使用DDR4控制器实现多通道数据读写(十八)

一、 概述 在之前已经使用interconnect IP 实现了DDR4的多通道读写功能&#xff0c;接下来为了更能接近实用性和更直观的展现多通道读写的功能&#xff0c;使用DDS IP 核生成两组正弦波信号&#xff0c;将两组正弦波信号通过其中两个通道存储到DDR4中&#xff0c;再使用另外两个…

基于Vue.js + Node.js + MySQL实现的图书销售管理系统

图书销售管理系统 项目概述 图书销售管理系统是一个基于Vue.js Node.js MySQL的全栈Web应用程序&#xff0c;专为数据库课程设计而开发。该系统实现了完整的图书销售业务流程管理&#xff0c;包括图书信息管理、库存管理、采购管理、销售管理和统计分析等功能模块。 项目背…

工业路由器赋能智慧电力储能柜实时通讯,构建电力智能化新生态

在电力行业迈向智能化的进程中&#xff0c;智慧电力储能柜作为实现电力灵活调配与高效存储的关键设施&#xff0c;其重要性日益凸显。然而复杂多变的应用环境、多样的设备接入需求、严苛的数据传输要求以及严峻的网络安全威胁&#xff0c;给储能柜的实时通讯带来诸多挑战。工业…

命令模式 - Flutter中的操作封装大师,把“动作“变成可管理的对象!

痛点场景&#xff1a;绘图应用的操作管理 假设你在开发一个绘图App&#xff0c;需要支持&#xff1a; 添加/删除图形修改图形属性撤销/重做操作批量执行命令 传统实现方式&#xff1a; void _handleAddShape(ShapeType type) {final shape _createShape(type);setState(()…

AI大模型应用开发完整学习体系

&#x1f3af; AI大模型应用开发完整学习体系 第一部分&#xff1a;课程核心内容 本课程系统化构建AI大模型应用开发能力体系&#xff0c;涵盖五大核心模块&#xff1a; 1️⃣ AI大模型开发基础 深入理解大模型架构&#xff08;如DeepSeek&#xff09;、Prompt工程优化、Cu…

UG NX二次开发(C#)-读取PMI对象的名称

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1、前言2、在UG NX中设置PMI对象名称3、采用NXOpen获取PMI对象名称1、前言 PMI对象是UG NX的一个很重要的对象,其获取主要是通过NXOpen来实现,在QQ群有群友问下如何获取PMI的对象名称,我们这篇…

大数据时代UI前端的智能决策支持:基于数据驱动的产品优化

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 一、引言&#xff1a;数据驱动决策的前端智能化变革 在数字化转型的浪潮中&#xff0c;UI 前…

服务器性能调优实战:如何在高负载下维持系统稳定性?

更多云服务器知识&#xff0c;尽在hostol.com 当服务器遭遇高负载时&#xff0c;它就像一个拼命运转的发动机&#xff0c;任何小小的波动都可能导致系统崩溃。你也许会看到 CPU 突然飙升、内存紧张、响应延迟增加&#xff0c;甚至进程挂掉。而这一切往往发生得悄无声息&#x…

CSS `@scope` 实战指南:开启局部样式隔离新时代

&#x1f9ec; CSS scope 实战指南&#xff1a;开启局部样式隔离新时代 你是否曾担心组件样式被全局覆盖&#xff1f;是否为命名空间冲突而头痛&#xff1f;CSS scope 是原生支持的作用域样式机制&#xff0c;让你不再依赖 BEM、CSS Modules、Scoped CSS 等方案&#xff0c;也能…

spring-ai-alibaba 1.0.0.2 学习(六)——DocumentReader与DocumentParser

spring-ai-alibaba提供了许多读取外部文档的包&#xff0c;例如语雀、飞书、notion笔记等 这些包以spring-ai-alibaba-starter-document-reader开头&#xff0c;实现了spring-ai的DocumentReader接口 最简单样例 我们一起来看一个最简单的例子&#xff0c;以spring-ai-aliba…

在银河麒麟V10 SP1上手动安装与配置高版本Docker的完整指南

原文链接&#xff1a;在银河麒麟V10 SP1上手动安装与配置高版本Docker的完整指南 Hello&#xff0c;大家好啊&#xff0c;今天给大家带来一篇银河麒麟桌面操作系统&#xff08;Kylin V10 SP1&#xff09;上安装与配置Docker的文章&#xff0c;详细介绍从下载安装到运行容器的每…

如何在电脑上完全抹去历史记录

要在电脑上‌完全抹去历史记录‌&#xff08;包括浏览记录、文件痕迹、系统日志等&#xff09;&#xff0c;需根据需求选择不同级别的清理方案。以下是分步骤的彻底清理指南&#xff1a; ‌一、基础清理&#xff1a;删除常见痕迹‌ ‌1. 浏览器记录清除‌ ‌Chrome/Firefox/E…

大数据环境搭建指南:基于 Docker 构建 Hadoop、Hive、HBase 等服务

大数据环境搭建指南&#xff1a;基于 Docker 构建 Hadoop、Hive、HBase 等服务 说明大数据环境搭建指南&#xff1a;基于 Docker 构建 Hadoop、Hive、HBase 等服务一、引言二、项目概述三、搭建步骤3.1 下载文件3.2 构建镜像3.2.1 构建基础层镜像3.2.2 并行构建 HBase/Hive/Spa…