扩散模型与强化学习(1)：字节Seedance中的人类偏好优化实践

扩散模型与强化学习(0)：专栏汇总与导航

前言：最近强化学习在Diffusion Models得到了越来越多广泛的应用，本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。

反馈数据收集

奖励模型

基模型反馈学习

超分RLHF框架

反馈数据收集

我们从训练数据集和在线用户中收集提示，并对提示进行数据平衡和信息过滤，以丢弃重复和模糊的提示。我们收集了用于人类偏好标注的高质量视频数据对，包括我们模型不同阶段生成的合成视频。实验结果表明，多源视觉材料的融入可以进一步提升RM模型的领域容量，扩大RM的偏好上界，增强泛化能力。我们在标注过程中采用了多维标注的方法，即在特定的标注维度下选择最好和最差的视频，同时保证最好的视频在其他维度上不劣于最差的视频。

奖励模型

为了全面提升模型性能，我们设计了一个复杂的奖励制度，包括三个专门的奖励模型：基础奖励模型，运动奖励模型和美学奖励模型。这些维度特定的奖励模型，加上视频定制的RLHF优化策略，可以在多个方面对模型能力进行综合改进，如图7所示。基础奖励模型侧重于增强基础模型能力，如图像-文本对齐和结构稳定性。我们采用视觉-语言模型作为这个奖励模型的架构。运动奖励模型有助于减轻视频伪影，同时增强运动幅度和生动性。考虑到视频美学主要来源于关键帧，受Seedream的启发，我们设计了基于图像空间输入的美学奖励模型，并将数据源修改为使用视频中的关键帧。

基模型反馈学习

奖励反馈学习已被广泛应用于现在的扩散模型中。在Seedance 1.0中，我们在训练过程中模拟视频推理管道，在奖励模型( Reward Model，RM )充分评估视频质量的情况下，直接预测x0 (生成干净的视频)。该优化策略直接最大化来自多个RM的复合奖励。针对DPO / PPO / GRPO的对比实验表明，我们的报酬最大化方法是最有效的方法，综合提高了文本-视频对齐、运动质量和美观性。此外，我们在扩散模型和RM之间进行多轮迭代学习。这种方法提高了RLHF过程的性能界限，并且更加稳定和可控

超分RLHF框架

如图8所示，我们还将RLHF应用在我们的扩散refiner上，它可以看作是一个基于扩散的条件生成模型。在训练过程中，低分辨率的VAE隐空间表示作为超分辨率模型的条件输入，而生成的高分辨率视频则由多个奖励模型进行评估。我们直接最大化这些奖励信号的线性组合。值得注意的是，我们的方法将RLHF直接应用于加速refiner模型，在保持计算效率的同时，有效地提高了低NFE场景下的运动质量和视觉保真度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/910393.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/910393.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！