提升文本到图像强化学习稳定性:Pref - GRPO算法如何革新图像生成?

提升文本到图像强化学习稳定性:Pref - GRPO算法如何革新图像生成?

在文本到图像生成领域,强化学习正重塑着模型与人类偏好的对齐方式。本文聚焦于一种创新的基于成对偏好奖励的GRPO方法(Pref - GRPO),它通过将优化目标从分数最大化转向偏好拟合,在稳定训练、规避奖励破解等方面取得显著进展,为高质量图像生成提供了新的技术路径。

论文标题:Pref - GRPO: Pairwise Preference Reward - based GRPO for Stable Text - to - Image Reinforcement Learning
来源:arXiv:2508.20751 [cs.LG],链接:http://arxiv.org/abs/2508.20751

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

基于生成对抗网络(GAN)和变分自编码器(VAE)的文本到图像(T2I)生成模型已取得长足进步,如StableDiffusion、DALL - E系列等。然而,将这些模型与人类偏好对齐,尤其是在强化学习(RL)框架下,仍面临诸多挑战。传统基于点奖励模型(RM)的方法在评分生成图像时,易受奖励破解影响,导致模型优化不稳定,生成图像质量下降。

研究问题

  1. 点奖励模型在图像评分时,细微分数差异经归一化后被放大,产生虚幻优势,驱使模型过度优化微小增益,破坏图像生成稳定性。
  2. 现有T2I基准测试受限于粗糙评估标准,难以全面评估模型性能,无法有效引导模型优化。

主要贡献

  1. 提出Pref - GRPO方法,通过成对偏好奖励机制,将优化目标从分数最大化转变为偏好拟合,显著提升训练稳定性,减少奖励破解现象。
  2. 构建Unigen Bench统一T2I基准,涵盖600个提示,跨越5个主题和20个子主题,利用多模态大语言模型(MLLM)进行基准构建和评估,能更全面评估模型语义一致性。
  3. 通过实验验证Pref - GRPO在区分图像质量细微差异、稳定优势估计方面的有效性,以及Unigen Bench在评估T2I模型优缺点方面的实用性。

思维导图

方法论精要

Pref - GRPO算法

  1. 偏好模型构建:利用偏好RM对每组图像进行成对比较,计算胜率作为奖励信号。例如,对于图像对(I1,I2)(I_1, I_2)(I1,I2),若人类偏好I1I_1I1多于I2I_2I2,则I1I_1I1在该对比较中的胜率增加。
  2. 训练过程优化:通过优化策略网络,使生成图像更符合人类偏好。在每次训练迭代中,根据偏好RM的胜率反馈调整策略网络参数,如使用随机梯度下降(SGD)或其变体更新参数θ\thetaθ,使得模型生成图像的偏好得分逐步提高。

Unigen Bench基准构建

  1. 提示设计:精心设计600个提示,涵盖自然场景、人物形象、物体组合等5个主要主题及20个子主题,确保覆盖多样化图像生成需求。
  2. 评估标准制定:通过10个主要标准和27个子标准评估语义一致性,如评估图像中物体的位置、形状、颜色与文本提示的匹配度。利用MLLM进行基准构建和评估,MLLM可理解文本提示并分析生成图像语义,判断两者一致性。

实验洞察

实验设置

  1. 对比算法:与基于点奖励的传统RL方法(如直接优化分数的方法)对比,评估Pref - GRPO在训练稳定性和图像生成质量上的优势。
  2. 数据集使用:在多个公开T2I数据集(如COCO - Captions、Flickr30k)及自建偏好数据集上进行实验,确保结果普适性。

主要结果

  1. 稳定性提升:Pref - GRPO在训练过程中,损失函数波动明显小于传统点奖励方法,表明其训练稳定性增强。例如,在相同训练步数下,传统方法损失标准差为σ1\sigma_1σ1,Pref - GRPO损失标准差为σ2\sigma_2σ2,且σ2≪σ1\sigma_2\ll\sigma_1σ2σ1
  2. 图像质量改善:通过人工评估和自动指标(如FID、CLIP - Score),Pref - GRPO生成图像在语义一致性、视觉清晰度上优于传统方法。在FID指标上,传统方法得分为x1x_1x1,Pref - GRPO得分为x2x_2x2,且x2<x1x_2\lt x_1x2<x1,说明生成图像与真实图像分布更接近。
  3. 基准评估效果:使用Unigen Bench评估不同T2I模型,准确揭示开源和闭源模型优缺点。例如,某开源模型在自然场景主题上表现良好,但在人物形象主题上语义一致性较差,为模型改进提供方向。

关键发现

  • 传统点奖励模型在T2I强化学习中存在内在缺陷,易受奖励破解影响,导致训练不稳定和图像质量下降。
  • Pref - GRPO通过成对偏好奖励机制,有效规避奖励破解,提升训练稳定性和图像生成质量,为T2I模型与人类偏好对齐提供更可靠方法。
  • Unigen Bench为T2I模型评估提供更全面、细致的基准,有助于深入理解模型性能,推动模型优化改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97890.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97890.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux UDisks守护进程曝本地提权漏洞CVE-2025-8067,PoC已发布

漏洞概述安全研究人员在Linux环境中广泛使用的磁盘管理组件UDisks守护进程中&#xff0c;发现了一个严重漏洞&#xff08;编号CVE-2025-8067&#xff0c;CVSS评分8.5&#xff09;。该漏洞已报告给红帽产品安全团队&#xff0c;并在UDisks更新版本中得到修复。技术细节该漏洞存在…

uniapp 开发上架 iOS App全流程

操作文档网址&#xff1a;https://ask.dcloud.net.cn/article/152 操作学习视频地址&#xff1a;uniapp打包上线微信小程序、安卓、IOS流程_哔哩哔哩_bilibili 第一步&#xff1a;注册苹果 iOS 个人开发者账号 费用说明 ‌个人开发者账号‌&#xff1a;适用于独立开发者或小…

Sqlsugar补充自定义模板

DBFirst默认创建所有实体CreateClassFile()的第二个参数为生成实体类命名空间//.net6以下 db.DbFirst.IsCreateAttribute().CreateClassFile("c:\\Demo\\1", "Models"); //.net6以上 string加? db.DbFirst.IsCreateAttribute().StringNullable().CreateCl…

LeetCode 392.判断子序列

给定字符串 s 和 t &#xff0c;判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些&#xff08;也可以不删除&#xff09;字符而不改变剩余字符相对位置形成的新字符串。&#xff08;例如&#xff0c;"ace"是"abcde"的一个子序列&#x…

逻辑回归:从原理到实战的完整指南

在机器学习中&#xff0c;分类任务是最常见的应用场景之一。而逻辑回归&#xff08;Logistic Regression&#xff09;&#xff0c;尽管名字中有“回归”&#xff0c;实际上是一种非常强大且广泛应用的二分类模型。它简单、高效、可解释性强&#xff0c;是数据科学初学者入门分类…

鸿蒙搭配前端开发:应用端与WEB端交互

鸿蒙系统&#xff08;HarmonyOS&#xff09;是华为开发的一款面向全场景的分布式操作系统&#xff0c;其设计初衷是为了适应物联网时代的需求&#xff0c;旨在构建一个统一的操作系统&#xff0c;支持多种设备的无缝协同工作。其分布式开发的一些主要优势&#xff1a; 跨设备协…

配置sscms时被sql server处处刁难

今天要记下来的是一个小例子。接前面&#xff0c;当我终于完成sql server的安装时&#xff0c;才发现要填写sscms的两个空是有多么艰难。首先安装sql server2016出现了太多环境不兼容的问题&#xff0c;让我只好退而安装sql server2012。安装sql server2012时其实是可以避坑的&…

【Flink】DataStream API:源算子、数据类型

目录源算子&#xff08;Source&#xff09;从集合中读取数据从文件读取数据从Socket读取数据从Kafka读取数据从数据生成器读取数据Flink支持的数据类型Flink的类型系统Flink支持的数据类型类型提示&#xff08;Type Hints&#xff09;源算子&#xff08;Source&#xff09; Fli…

Linux 安装docker-compose安装方法(安装docker compose安装)

文章目录**方法一&#xff1a;通过 curl 下载二进制文件&#xff08;推荐&#xff09;**1. 安装前准备- **确保已安装 Docker**- **检查 Docker 是否安装成功**2. 下载并安装 Docker Compose- **下载最新版本的 Docker Compose 二进制文件**- **国内加速下载&#xff08;解决 G…

OCR 发票识别与验真接口:助力电子化发票新时代

自 2025 年 10 月 1 日起&#xff0c;纸质火车票彻底告别历史舞台&#xff0c;全面数字化的电子发票取而代之&#xff0c;这一变革标志着票务领域的重大革新&#xff0c;也让电子化发票处理的需求呈井喷式增长。在此背景下&#xff0c;OCR 发票识别和发票验真接口技术挺身而出&…

设计模式:抽象工厂模式(Abstract Factory Pattern)

文章目录一、概念二、实例分析三、完整示例一、概念 抽象工厂模式是一种创建型设计模式。 提供一个接口用于创建一系列相关或相互依赖的对象&#xff0c;而无需指定它们的具体类。 相比于工厂方法模式&#xff0c;抽象工厂模式不仅仅是创建单一产品&#xff0c;而是一族产品&am…

轻量级注意力模型HOTSPOT-YOLO:无人机光伏热异常检测新SOTA,mAP高达90.8%

【导读】 无人机光伏巡检如何更智能、更高效&#xff1f;HOTSPOT-YOLO模型给出了亮眼答案&#xff01;给AI装上“热成像鹰眼”&#xff0c;能精准锁定光伏板上的细微热斑缺陷。它不仅将检测精度&#xff08;mAP&#xff09;提升至90.8%&#xff0c;更在保持实时性的前提下大幅…

CHT共轭传热: 导热系数差异如何影响矩阵系数

文章目录 一、导热系数差异如何影响矩阵系数&#xff1f;二、如何处理系数差异以加速收敛&#xff1f;1. **变量重缩放&#xff08;Scaling of Variables&#xff09;**2. **使用物理型预条件子&#xff08;Physics-based Preconditioning&#xff09;**3. **区域分解法&#x…

Vue Vapor 事件机制深潜:从设计动机到源码解析

基于 vue3.6&#xff08;alpha 阶段&#xff09;及 Vapor 的最新进展撰写&#xff1b;Vapor 仍在演进中&#xff0c;部分实现可能继续优化。TL;DR&#xff08;速览&#xff09; 传统&#xff08;≤3.5&#xff09;&#xff1a;事件以元素为中心绑定&#xff1b;每个元素用 el._…

Day 01(01): Hadoop与大数据基石

目标&#xff1a;建立对大数据生态的整体认知&#xff0c;理解HDFS和MapReduce的核心思想。 8:00-9:30&#xff1a;【视频学习】在B站搜索“Hadoop入门”或“三小时入门大数据”&#xff0c;观看1-2个高播放量的简介视频&#xff0c;了解大数据面临的问题和Hadoop的解决方案。 …

开源 + 免费!谷歌推出 Gemini CLI,Claude Code 的强劲对手

在如今飞速发展的 AI 工具生态中&#xff0c;命令行界面&#xff08;CLI&#xff09;这一开发者与计算机交互的传统方式&#xff0c;正悄然发生着一场颠覆性的变革。2025 年 6 月 25 日&#xff0c;谷歌正式发布开源的 Gemini CLI&#xff0c;这一举措标志着谷歌 Gemini AI 能力…

MacOS - 记录MacOS发烫的好几天 - 幕后黑手竟然是

MacOS - 记录MacOS发烫的好几天 - 幕后黑手竟然是 Mac是不可能出bug的&#xff0c;一定是世界出bug了。 前言 几天前Mac突然开始烫烫的&#xff0c;就这么一烫烫了好几天。这可不行&#xff0c;所以看了下“活动监视器”&#xff0c;发现了一个Code Helper(Plugin)占据200%上下…

Vue基础知识-Vue中:class与:style动态绑定样式

完整源码<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><script src&quo…

终于赶在考试券过期前把Oracle OCP证书考下来了!

&#x1f6a9; 今天终于能松口气了——Oracle OCP证书到手&#xff01; 差点白白浪费一次考试机会&#xff08;1700&#xff09;&#xff01;3月底报名了Oracle OCP&#xff0c;摆烂了大半年&#xff0c;终于是逼着自己在考试券过期前考完了082和083科目&#xff0c;目前已经顺…

Power BI学习笔记-周报销售数据分析

Power BI学习笔记-周报销售数据分析 简介 来自B站的Power BI学习视频的学习笔记。 记录来自B站的Power BI教学视频&#xff0c;由“高级财务BP-Ni”发布&#xff0c;视频发布者主要发布财务类相关的PBI视频&#xff0c;视频长度30分钟左右。 视频链接&#xff1a; 【powerbi周报…