提升文本到图像强化学习稳定性：Pref - GRPO算法如何革新图像生成？

在文本到图像生成领域，强化学习正重塑着模型与人类偏好的对齐方式。本文聚焦于一种创新的基于成对偏好奖励的GRPO方法（Pref - GRPO），它通过将优化目标从分数最大化转向偏好拟合，在稳定训练、规避奖励破解等方面取得显著进展，为高质量图像生成提供了新的技术路径。

论文标题：Pref - GRPO: Pairwise Preference Reward - based GRPO for Stable Text - to - Image Reinforcement Learning
来源：arXiv:2508.20751 [cs.LG]，链接：http://arxiv.org/abs/2508.20751

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「亚里随笔」即刻免费解锁

文章核心

研究背景

基于生成对抗网络（GAN）和变分自编码器（VAE）的文本到图像（T2I）生成模型已取得长足进步，如StableDiffusion、DALL - E系列等。然而，将这些模型与人类偏好对齐，尤其是在强化学习（RL）框架下，仍面临诸多挑战。传统基于点奖励模型（RM）的方法在评分生成图像时，易受奖励破解影响，导致模型优化不稳定，生成图像质量下降。

研究问题

点奖励模型在图像评分时，细微分数差异经归一化后被放大，产生虚幻优势，驱使模型过度优化微小增益，破坏图像生成稳定性。
现有T2I基准测试受限于粗糙评估标准，难以全面评估模型性能，无法有效引导模型优化。

主要贡献

提出Pref - GRPO方法，通过成对偏好奖励机制，将优化目标从分数最大化转变为偏好拟合，显著提升训练稳定性，减少奖励破解现象。
构建Unigen Bench统一T2I基准，涵盖600个提示，跨越5个主题和20个子主题，利用多模态大语言模型（MLLM）进行基准构建和评估，能更全面评估模型语义一致性。
通过实验验证Pref - GRPO在区分图像质量细微差异、稳定优势估计方面的有效性，以及Unigen Bench在评估T2I模型优缺点方面的实用性。

思维导图

方法论精要

Pref - GRPO算法

偏好模型构建：利用偏好RM对每组图像进行成对比较，计算胜率作为奖励信号。例如，对于图像对 $I_1, I_2)$ ，若人类偏好 $I_1$ 多于 $I_2$ ，则 $I_1$ 在该对比较中的胜率增加。
训练过程优化：通过优化策略网络，使生成图像更符合人类偏好。在每次训练迭代中，根据偏好RM的胜率反馈调整策略网络参数，如使用随机梯度下降（SGD）或其变体更新参数 $θ\theta$ ，使得模型生成图像的偏好得分逐步提高。

Unigen Bench基准构建

提示设计：精心设计600个提示，涵盖自然场景、人物形象、物体组合等5个主要主题及20个子主题，确保覆盖多样化图像生成需求。
评估标准制定：通过10个主要标准和27个子标准评估语义一致性，如评估图像中物体的位置、形状、颜色与文本提示的匹配度。利用MLLM进行基准构建和评估，MLLM可理解文本提示并分析生成图像语义，判断两者一致性。

实验洞察

实验设置

对比算法：与基于点奖励的传统RL方法（如直接优化分数的方法）对比，评估Pref - GRPO在训练稳定性和图像生成质量上的优势。
数据集使用：在多个公开T2I数据集（如COCO - Captions、Flickr30k）及自建偏好数据集上进行实验，确保结果普适性。

主要结果

稳定性提升：Pref - GRPO在训练过程中，损失函数波动明显小于传统点奖励方法，表明其训练稳定性增强。例如，在相同训练步数下，传统方法损失标准差为 $σ1\sigma_1$ ，Pref - GRPO损失标准差为 $σ2\sigma_2$ ，且 $σ2≪σ1\sigma_2\ll\sigma_1$ 。
图像质量改善：通过人工评估和自动指标（如FID、CLIP - Score），Pref - GRPO生成图像在语义一致性、视觉清晰度上优于传统方法。在FID指标上，传统方法得分为 $x_1$ ，Pref - GRPO得分为 $x_2$ ，且 $x2<x1x_2\lt x_1$ ，说明生成图像与真实图像分布更接近。
基准评估效果：使用Unigen Bench评估不同T2I模型，准确揭示开源和闭源模型优缺点。例如，某开源模型在自然场景主题上表现良好，但在人物形象主题上语义一致性较差，为模型改进提供方向。

关键发现

传统点奖励模型在T2I强化学习中存在内在缺陷，易受奖励破解影响，导致训练不稳定和图像质量下降。
Pref - GRPO通过成对偏好奖励机制，有效规避奖励破解，提升训练稳定性和图像生成质量，为T2I模型与人类偏好对齐提供更可靠方法。
Unigen Bench为T2I模型评估提供更全面、细致的基准，有助于深入理解模型性能，推动模型优化改进。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/97890.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/97890.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！