提升文本到图像强化学习稳定性:Pref - GRPO算法如何革新图像生成?
在文本到图像生成领域,强化学习正重塑着模型与人类偏好的对齐方式。本文聚焦于一种创新的基于成对偏好奖励的GRPO方法(Pref - GRPO),它通过将优化目标从分数最大化转向偏好拟合,在稳定训练、规避奖励破解等方面取得显著进展,为高质量图像生成提供了新的技术路径。
论文标题:Pref - GRPO: Pairwise Preference Reward - based GRPO for Stable Text - to - Image Reinforcement Learning
来源:arXiv:2508.20751 [cs.LG],链接:http://arxiv.org/abs/2508.20751
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁
文章核心
研究背景
基于生成对抗网络(GAN)和变分自编码器(VAE)的文本到图像(T2I)生成模型已取得长足进步,如StableDiffusion、DALL - E系列等。然而,将这些模型与人类偏好对齐,尤其是在强化学习(RL)框架下,仍面临诸多挑战。传统基于点奖励模型(RM)的方法在评分生成图像时,易受奖励破解影响,导致模型优化不稳定,生成图像质量下降。
研究问题
- 点奖励模型在图像评分时,细微分数差异经归一化后被放大,产生虚幻优势,驱使模型过度优化微小增益,破坏图像生成稳定性。
- 现有T2I基准测试受限于粗糙评估标准,难以全面评估模型性能,无法有效引导模型优化。
主要贡献
- 提出Pref - GRPO方法,通过成对偏好奖励机制,将优化目标从分数最大化转变为偏好拟合,显著提升训练稳定性,减少奖励破解现象。
- 构建Unigen Bench统一T2I基准,涵盖600个提示,跨越5个主题和20个子主题,利用多模态大语言模型(MLLM)进行基准构建和评估,能更全面评估模型语义一致性。
- 通过实验验证Pref - GRPO在区分图像质量细微差异、稳定优势估计方面的有效性,以及Unigen Bench在评估T2I模型优缺点方面的实用性。
思维导图
方法论精要
Pref - GRPO算法
- 偏好模型构建:利用偏好RM对每组图像进行成对比较,计算胜率作为奖励信号。例如,对于图像对(I1,I2)(I_1, I_2)(I1,I2),若人类偏好I1I_1I1多于I2I_2I2,则I1I_1I1在该对比较中的胜率增加。
- 训练过程优化:通过优化策略网络,使生成图像更符合人类偏好。在每次训练迭代中,根据偏好RM的胜率反馈调整策略网络参数,如使用随机梯度下降(SGD)或其变体更新参数θ\thetaθ,使得模型生成图像的偏好得分逐步提高。
Unigen Bench基准构建
- 提示设计:精心设计600个提示,涵盖自然场景、人物形象、物体组合等5个主要主题及20个子主题,确保覆盖多样化图像生成需求。
- 评估标准制定:通过10个主要标准和27个子标准评估语义一致性,如评估图像中物体的位置、形状、颜色与文本提示的匹配度。利用MLLM进行基准构建和评估,MLLM可理解文本提示并分析生成图像语义,判断两者一致性。
实验洞察
实验设置
- 对比算法:与基于点奖励的传统RL方法(如直接优化分数的方法)对比,评估Pref - GRPO在训练稳定性和图像生成质量上的优势。
- 数据集使用:在多个公开T2I数据集(如COCO - Captions、Flickr30k)及自建偏好数据集上进行实验,确保结果普适性。
主要结果
- 稳定性提升:Pref - GRPO在训练过程中,损失函数波动明显小于传统点奖励方法,表明其训练稳定性增强。例如,在相同训练步数下,传统方法损失标准差为σ1\sigma_1σ1,Pref - GRPO损失标准差为σ2\sigma_2σ2,且σ2≪σ1\sigma_2\ll\sigma_1σ2≪σ1。
- 图像质量改善:通过人工评估和自动指标(如FID、CLIP - Score),Pref - GRPO生成图像在语义一致性、视觉清晰度上优于传统方法。在FID指标上,传统方法得分为x1x_1x1,Pref - GRPO得分为x2x_2x2,且x2<x1x_2\lt x_1x2<x1,说明生成图像与真实图像分布更接近。
- 基准评估效果:使用Unigen Bench评估不同T2I模型,准确揭示开源和闭源模型优缺点。例如,某开源模型在自然场景主题上表现良好,但在人物形象主题上语义一致性较差,为模型改进提供方向。
关键发现
- 传统点奖励模型在T2I强化学习中存在内在缺陷,易受奖励破解影响,导致训练不稳定和图像质量下降。
- Pref - GRPO通过成对偏好奖励机制,有效规避奖励破解,提升训练稳定性和图像生成质量,为T2I模型与人类偏好对齐提供更可靠方法。
- Unigen Bench为T2I模型评估提供更全面、细致的基准,有助于深入理解模型性能,推动模型优化改进。