扩散模型与强化学习(1):字节Seedance中的人类偏好优化实践

扩散模型与强化学习(0):专栏汇总与导航

前言:最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。

目录

反馈数据收集

奖励模型

基模型反馈学习

超分RLHF框架


反馈数据收集

我们从训练数据集和在线用户中收集提示,并对提示进行数据平衡和信息过滤,以丢弃重复和模糊的提示。我们收集了用于人类偏好标注的高质量视频数据对,包括我们模型不同阶段生成的合成视频。实验结果表明,多源视觉材料的融入可以进一步提升RM模型的领域容量,扩大RM的偏好上界,增强泛化能力。我们在标注过程中采用了多维标注的方法,即在特定的标注维度下选择最好和最差的视频,同时保证最好的视频在其他维度上不劣于最差的视频。

奖励模型

为了全面提升模型性能,我们设计了一个复杂的奖励制度,包括三个专门的奖励模型:基础奖励模型,运动奖励模型和美学奖励模型。这些维度特定的奖励模型,加上视频定制的RLHF优化策略,可以在多个方面对模型能力进行综合改进,如图7所示。基础奖励模型侧重于增强基础模型能力,如图像-文本对齐和结构稳定性。我们采用视觉-语言模型作为这个奖励模型的架构。运动奖励模型有助于减轻视频伪影,同时增强运动幅度和生动性。考虑到视频美学主要来源于关键帧,受Seedream的启发,我们设计了基于图像空间输入的美学奖励模型,并将数据源修改为使用视频中的关键帧。

基模型反馈学习

奖励反馈学习已被广泛应用于现在的扩散模型中。在Seedance 1.0中,我们在训练过程中模拟视频推理管道,在奖励模型( Reward Model,RM )充分评估视频质量的情况下,直接预测x0 (生成干净的视频)。该优化策略直接最大化来自多个RM的复合奖励。针对DPO / PPO / GRPO的对比实验表明,我们的报酬最大化方法是最有效的方法,综合提高了文本-视频对齐、运动质量和美观性。此外,我们在扩散模型和RM之间进行多轮迭代学习。这种方法提高了RLHF过程的性能界限,并且更加稳定和可控

超分RLHF框架

如图8所示,我们还将RLHF应用在我们的扩散refiner上,它可以看作是一个基于扩散的条件生成模型。在训练过程中,低分辨率的VAE隐空间表示作为超分辨率模型的条件输入,而生成的高分辨率视频则由多个奖励模型进行评估。我们直接最大化这些奖励信号的线性组合。值得注意的是,我们的方法将RLHF直接应用于加速refiner模型,在保持计算效率的同时,有效地提高了低NFE场景下的运动质量和视觉保真度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910393.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910393.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【内存】Linux 内核优化实战 - vm.max_map_count

目录 vm.max_map_count参数全面解析一、参数定义与核心作用二、默认值与关键调整场景1. 默认限制与不足场景2. 典型报错案例 三、操作指南:查看与修改方法四、场景化建议值与配置示例五、关键注意事项六、延伸知识:内存映射的底层逻辑 vm.max_map_count参…

组件之间的双向绑定:v-model

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

GetX 实现 MVVM 架构, 高效 路由管理 和 状态管理

GetX是Flutter中的一个高效的状态管理与路由管理框架,结合MVVM架构能简化代码逻辑。以下是使用GetX实现MVVM架构,并完成路由和状态管理的核心思路与实践: 一、MVVM架构在GetX中的映射 MVVM(Model-View-ViewModel)与G…

Qt项目,记事本

一、项目说明 项目功能: (1)打开文件:点击打开文件按钮弹出对话框,选择文本文件后,在主窗口编辑界面显示内容。 (2)关闭文件:关闭打开的文件,并询问是否保存…

【全开源】填表问卷统计预约打卡表单系统+uniapp前端

一.系统介绍 填表问卷统计预约打卡表单系统是ThinkPHPUniApp开发的一款集信息填表、预约报名,签到打卡、活动通知、报名投票、班级统计等功能的自定义表单统计小程序。 二.搭建环境 系统环境:CentOS、 运行环境:宝塔 Linux 网站环境&…

开源 python 应用 开发(一)python、pip、pyAutogui、python opencv安装

最近有个项目需要做视觉自动化处理的工具,最后选用的软件为python,刚好这个机会进行系统学习。短时间学习,需要快速开发,所以记录要点步骤,防止忘记。 链接: 开源 python 应用 开发(一&#x…

SpringCloud + Zookeeper + Feign整合及Feign原理

知其然 SpringCloud Zookeeper Spring Cloud 与 Zookeeper的整合只需要添加相关的starter依赖和增加相关注解即可完成。 pom.xml 如下&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.…

深入探索 OpenCV 图像识别:从基础到深度学习

在当今数字化时代&#xff0c;图像识别技术已经渗透到我们生活的方方面面&#xff0c;从智能手机中的拍照翻译功能到自动驾驶汽车的目标检测系统&#xff0c;图像识别的应用无处不在。作为一名算法工程师&#xff0c;我有幸深入研究并实践了 OpenCV 在图像识别领域的强大功能。…

Hadoop部署(HA)高可用集群

一、准备工作 1.把集群全部停掉 在三台节点上都做&#xff08;在xshell通过右键----> 发送输入到--->所有会话&#xff09; 2..在/export/servers下创建HA目录 sudo mkdir -p /export/servers/HA 3.创建用户和设置所属主和所属组 #创建用户 sudo adduser ygre #设置…

STM32 CAN位同步、错误处理

一、接收方数据采样 CAN总线没有时钟线&#xff0c;总线上的所有设备通过约定波特率的方式确定每一个数据位的时长发送方以约定的位时长每隔固定时间输出一个数据位接收方以约定的位时长每隔固定时间采样总线的电平&#xff0c;输入一个数据位理想状态下&#xff0c;接收方能依…

django serializer __all__中 额外添加外键里的某一个属性

在Django中使用序列化器&#xff08;Serializer&#xff09;时&#xff0c;你可能会遇到需要将模型&#xff08;Model&#xff09;中的外键字段转换成其关联对象的一部分属性的情况。默认情况下&#xff0c;序列化器会自动序列化外键字段&#xff0c;但如果你想要在序列化结果中…

Redis快的原因

Redis 高性能的核心原因 Redis 之所以能达到极高的性能&#xff08;10万 QPS&#xff09;&#xff0c;主要源于以下几个关键设计&#xff1a; 1. 纯内存操作 核心优势&#xff1a;所有数据存储在内存中&#xff0c;避免了磁盘 I/O 瓶颈 内存访问速度比磁盘快 10万倍以上&am…

【大模型微调】6.模型微调实测与格式转换导出

引言 本文继续研究 LLaMA-Factory 微调数据的流程&#xff0c;侧重于微调结果与模型导出。 数据集准备 首先参考 LLaMA-Factory 核心开发者的文章[1]&#xff0c;下载用于微调的公开的商品文案数据集 AdvertiseGen。 下载地址&#xff1a;https%3A//cloud.tsinghua.edu.cn/…

3085. 成为 K 特殊字符串需要删除的最少字符数

3085. 成为 K 特殊字符串需要删除的最少字符数 给你一个字符串 word 和一个整数 k。 如果 |freq(word[i]) - freq(word[j])| < k 对于字符串中所有下标 i 和 j 都成立&#xff0c;则认为 word 是 k 特殊字符串。 此处&#xff0c;freq(x) 表示字符 x 在 word 中的出现频…

分布式系统中的 Kafka:流量削峰与异步解耦(二)

Kafka 在分布式系统中的应用案例 电商订单系统 在电商领域&#xff0c;订单系统是核心业务模块之一&#xff0c;涉及多个复杂的业务环节和系统组件之间的交互。以常见的电商购物流程为例&#xff0c;当用户在电商平台上下单后&#xff0c;订单创建服务会首先接收到用户的订单…

从事登高架设作业需要注意哪些安全事项?

从事登高架设作业&#xff08;如脚手架搭设、高空维修、外墙清洗等&#xff09;属于高风险特种作业&#xff0c;必须严格遵守安全规范。以下是关键安全注意事项&#xff0c;涵盖作业前准备、作业中操作、应急处理三大环节&#xff0c;符合国家《高处作业安全技术规范》&#xf…

RA4M2开发IOT(6)----涂鸦模组快速上云

RA4M2开发IOT.6--涂鸦模组快速上云 概述视频教学样品申请硬件准备参考程序涂鸦官网链接创建一个项目选择对应产品产品基本配置添加标准功能APP界面配置硬件选择产品配置硬件详情PCB原理图涂鸦调试文件下载进入调试涂鸦模块串口协议心跳检测查询产品信息查询工作模式AP配网APP链…

AI时代SEO关键词革新

内容概要 在人工智能&#xff08;AI&#xff09;技术快速发展的背景下&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;关键词策略正经历根本性变革。本文将系统阐述AI如何重塑关键词研究、优化及效果评估的全流程。具体而言&#xff0c;首先解析智能研究方法在挖掘用户意…

JavaEE初阶第三期:解锁多线程,从 “单车道” 到 “高速公路” 的编程升级(一)

专栏&#xff1a;JavaEE初阶起飞计划 个人主页&#xff1a;手握风云 目录 一、认识线程 1.1. 概念 1.2. 为什么要使用线程 1.3. 进程和线程的关系 1.4. 多线程模型 二、多线程的创建 2.1. 继承Thread类 2.2. 实现Runnable接口 2.3. 匿名内部类 2.4. lambda表达式 一、…

【StarRocks系列】建表优化

目录 一、数据模型选择 (核心优化) 二、分区与分桶策略 (数据分布优化) 三、字段类型与压缩 四、索引策略 五、高级特性应用 六、建表示例&#xff08;关键优化整合&#xff09; 参考官网 优化性能 | StarRocks 在 StarRocks 中创建表时&#xff0c;合理的表设计是性能优…