【AI论文】对抗性后期训练快速文本到音频生成

摘要:文本到音频系统虽然性能不断提高,但在推理时速度很慢,因此对于许多创意应用来说,它们的延迟是不切实际的。 我们提出了对抗相对对比(ARC)后训练,这是第一个不基于蒸馏的扩散/流模型的对抗加速算法。 虽然过去的对抗性后训练方法难以与昂贵的蒸馏方法进行比较,但ARC后训练是一个简单的程序,它(1)将最近的相对论对抗性公式扩展到扩散/流后训练,(2)将其与一种新的对比鉴别器目标相结合,以鼓励更好的提示依从性。 我们将ARC后训练与Stable Audio Open的一些优化相结合,构建了一个能够在H100上大约75毫秒内生成大约12秒的44.1kHz立体声音频,在移动边缘设备上大约7秒的模型,据我们所知,这是最快的文本到音频模型。Huggingface链接:Paper page,论文链接:2505.08175

研究背景和目的

研究背景

近年来,文本到音频(Text-to-Audio, T2A)生成系统取得了显著进展,能够在各种应用场景中生成高质量的音频内容。然而,这些系统在推理(inference)阶段普遍存在速度较慢的问题,生成一段音频往往需要数秒甚至数分钟的时间。这种高延迟极大地限制了T2A系统在创意应用领域的实用性,如实时音乐创作、游戏音效生成、虚拟助手交互等。在这些场景中,用户期望系统能够即时响应并生成符合要求的音频内容,而现有的T2A系统显然无法满足这一需求。

为了解决这一问题,研究人员开始探索加速T2A系统的方法。目前,主流的加速技术主要基于蒸馏(distillation),即通过训练一个较小的模型来模拟较大模型的行为,从而在保持一定生成质量的同时提高推理速度。然而,蒸馏方法存在诸多局限性,如训练成本高、需要大量存储资源来保存教师模型生成的轨迹-输出对、以及可能导致生成多样性的降低等。此外,蒸馏方法往往依赖于分类器无引导(Classifier-Free Guidance, CFG)技术来提高生成质量,但CFG同时也会带来生成多样性的降低和过度饱和(over-saturation)的问题。

研究目的

本研究旨在提出一种不依赖于蒸馏的对抗性加速算法,用于加速基于扩散模型或流模型的文本到音频生成系统。具体而言,研究目的包括:

  1. 开发一种新的对抗性后训练(post-training)方法:通过引入相对论对抗性损失(Relativistic Adversarial Loss)和对比损失(Contrastive Loss),在保持生成质量的同时显著提高推理速度。
  2. 优化模型架构和采样策略:通过改进模型架构和采用更高效的采样策略,进一步减少推理时间,使得T2A系统能够在边缘设备上实时运行。
  3. 评估加速效果和生成质量:通过客观指标和主观评价,验证所提方法在加速效果和生成质量方面的优越性,并与现有加速方法进行比较。
  4. 探索创意应用潜力:通过实际案例展示加速后的T2A系统在创意应用领域的潜力,如音乐创作、声音设计等。

研究方法

1. 基础模型选择与预训练

本研究选择Stable Audio Open(SAO)作为基础模型,该模型是一个基于扩散模型的文本到音频生成系统,能够生成高质量的立体声音频。SAO模型由预训练的自动编码器、T5文本嵌入器和扩散Transformer(DiT)组成,总参数量约为1.06B。为了加速推理,研究对SAO模型进行了优化,减少了DiT的维度和层数,最终得到一个参数量约为0.34B的轻量级模型。

2. 对抗性相对对比后训练(ARC Post-Training)

ARC后训练是本研究的核心方法,它结合了相对论对抗性损失和对比损失来优化预训练的扩散模型。具体而言,ARC后训练包括以下步骤:

  • 初始化:将预训练的扩散模型作为生成器(G)和鉴别器(D)的初始化模型。
  • 相对论对抗性损失(LR):通过引入相对论对抗性损失,鼓励生成器生成更逼真的音频样本,同时使鉴别器能够更准确地区分真实样本和生成样本。相对论对抗性损失通过比较成对的真实样本和生成样本(共享相同的文本提示)来计算损失,从而提供更强的梯度信号。
  • 对比损失(LC):为了增强生成器对文本提示的遵循能力,研究引入了对比损失。对比损失通过训练鉴别器来区分具有正确和错误文本提示的音频样本,从而鼓励鉴别器关注语义特征而不是高频特征。这有助于提高生成音频与文本提示之间的一致性。
  • 联合优化:在训练过程中,交替更新生成器和鉴别器的参数,以最小化相对论对抗性损失和对比损失的总和。
3. 采样策略优化

为了进一步提高推理速度,研究采用了乒乓采样(Ping-Pong Sampling)策略。乒乓采样通过交替进行去噪和再加噪操作来迭代优化样本,从而减少了对传统ODE求解器的依赖。这种采样策略使得模型能够在更少的采样步骤内生成高质量的音频样本。

4. 边缘设备优化

为了使加速后的T2A系统能够在边缘设备上实时运行,研究还进行了边缘设备优化。具体而言,研究采用了Arm的KleidiAI库和LiteRT运行时,通过动态Int8量化技术来减少模型大小和推理时间。动态Int8量化技术允许在推理过程中动态量化激活值,从而在保持一定生成质量的同时显著减少内存占用和推理时间。

研究结果

1. 加速效果

实验结果表明,ARC后训练显著提高了T2A系统的推理速度。在H100 GPU上,优化后的模型能够在约75毫秒内生成12秒的44.1kHz立体声音频,相比原始SAO模型(约100秒)加速了超过100倍。在移动边缘设备上(如Vivo X200 Pro智能手机),优化后的模型也能在约7秒内完成生成任务,实现了实时音频生成。

2. 生成质量

通过客观指标(如FD openl3、KL passt、CLAP分数等)和主观评价(如webMUSHRA测试)发现,ARC后训练在保持生成质量的同时显著提高了推理速度。具体而言,优化后的模型在音频质量、语义对齐和提示遵循能力方面均表现出色,且生成多样性显著高于现有蒸馏方法(如Presto)。

3. 边缘设备性能

边缘设备优化实验表明,通过动态Int8量化技术,优化后的模型在保持一定生成质量的同时显著减少了内存占用和推理时间。在Vivo X200 Pro智能手机上,优化后的模型能够在约7秒内完成生成任务,且峰值运行时RAM使用量从6.5GB降低到3.6GB。

研究局限

尽管本研究在加速文本到音频生成系统方面取得了显著进展,但仍存在以下局限性:

  1. 模型大小和存储需求:优化后的模型仍然占用较大的存储空间(数GB),这可能限制了其在某些应用场景中的部署和分发。
  2. 计算资源需求:尽管ARC后训练显著提高了推理速度,但在资源受限的设备上(如低端智能手机),实时音频生成可能仍然面临挑战。
  3. 生成多样性评估:尽管本研究提出了CLAP条件多样性分数(CCDS)来评估条件生成多样性,但该指标可能无法全面反映生成音频的多样性。未来研究可以探索更全面的多样性评估方法。
  4. 特定领域性能:本研究主要关注通用音频生成任务,对于特定领域(如音乐、语音合成等)的音频生成任务,ARC后训练的性能可能需要进一步验证和优化。

未来研究方向

针对本研究的局限性和现有技术的不足,未来研究可以从以下几个方面展开:

  1. 模型压缩与轻量化:探索更高效的模型压缩和轻量化技术,以减少模型大小和存储需求。例如,可以采用知识蒸馏、剪枝、量化等技术来进一步压缩模型。
  2. 边缘设备优化:针对资源受限的边缘设备,研究更高效的推理加速策略。例如,可以探索更高效的采样策略、硬件加速技术(如专用神经网络处理器)等。
  3. 多样性评估与增强:研究更全面的多样性评估方法,以更准确地评估生成音频的多样性。同时,探索增强生成多样性的技术,如条件变分自编码器(CVAE)、生成对抗网络(GAN)的变种等。
  4. 特定领域应用:针对特定领域(如音乐、语音合成等)的音频生成任务,研究专门的加速和优化方法。例如,可以结合领域知识来设计更高效的模型架构和训练策略。
  5. 多模态融合:探索文本到音频生成系统与其他模态(如图像、视频)的融合技术,以实现更丰富的多媒体内容生成。例如,可以研究文本到视频生成系统中的音频同步和生成技术。
  6. 实时交互与反馈:研究实时交互和反馈机制,以使用户能够在生成过程中实时调整参数和提供反馈。这将有助于提高生成音频的满意度和实用性。

结论

本研究提出了一种不依赖于蒸馏的对抗性加速算法——对抗性相对对比后训练(ARC Post-Training),用于加速基于扩散模型或流模型的文本到音频生成系统。实验结果表明,ARC后训练在保持生成质量的同时显著提高了推理速度,使得T2A系统能够在边缘设备上实时运行。未来研究可以进一步探索模型压缩与轻量化、边缘设备优化、多样性评估与增强、特定领域应用、多模态融合以及实时交互与反馈等方向,以推动T2A技术在更多领域的应用和发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/80418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Word文档图片和图表自动添加序号

0 Preface/Foreword Word文档是办公常用的文档,里面经常会插入图片或者表格,当表格和图片数量过多时,如果有些图片需要删除或者添加,那么大概率需要修改大量图片的序号或者引用记录,如果通过手工一个一个修改&#xf…

软件架构设计--期末复习

质量属性 参考视频:【13.5质量属性-架构评估】 在软件架构中,质量属性是衡量系统设计优劣的关键指标,通常分为运行时属性和非运行时属性。以下是一些常见的质量属性: 一、软件架构中的质量属性 运行时属性: 性能&am…

多指标组合策略思路

一种基于多种技术指标和日历因素的综合交易策略,旨在通过复杂的条件判断来预测市场的短期走势,并据此进行买卖操作。 策略概述 该策略的核心思想是通过结合多个技术指标和日历因素来判断市场的短期趋势,并在合适的时机进行买入或卖出操作。 具…

STM32 HAL驱动程序 内部Flash

hal_flash.c #include "hal_flash.h"volatile uint32_t flashWriteOffset SYS_APP_BAK_SAVE_ADDR_BASE; volatile uint32_t flashReadOffset SYS_APP_BAK_SAVE_ADDR_BASE;/* MCU OTA */ /*擦除指定的Flash页*/ void flash_erase_page(uint8_t flashPage , uint32_…

电子电路:什么是电流离散性特征?

关于电荷的量子化,即电荷的最小单位是电子的电荷量e。在宏观电路中,由于电子数量极大,电流看起来是连续的。但在微观层面,比如纳米器件或单电子晶体管中,单个电子的移动就会引起可观测的离散电流。 还要提到散粒噪声,这是电流离散性的表现之一。当电流非常小时,例如在二…

AI agent与lang chain的学习笔记 (1)

文章目录 智能体的4大要素一些上手的例子与思考。创建简单的AI agent.从本地读取文件,然后让AI智能体总结。 也可以自己定义一些工具 来完成一些特定的任务。我们可以使用智能体总结一个视频。用户可以随意问关于视频的问题。 智能体的4大要素 AI 智能体有以下几个…

react+html2canvas+jspdf将页面导出pdf

主要使用html2canvasjspdf 1.将前端页面导出为pdf 2.处理导出后图表的截断问题 export default function AIReport() {const handleExport async () > {try {// 需要导出的内容idconst element document.querySelector(#AI-REPORT-CONTAINER);if (!element) {message.err…

FFmpeg:多媒体处理的终极利器

FFmpeg详细介绍 1. 定义与基本概述 FFmpeg是一套开源的跨平台多媒体处理工具集,最初由法国程序员Fabrice Bellard于2000年开发,其名称源自“Fast Forward MPEG”,体现了其高效处理MPEG格式的能力。它不仅是命令行工具,还包含多个库和开发套件,支持视频转码、剪辑、合并、…

【应用开发十】pwm

1 应用层操作PWM 与LED设备一样,操作PWD也是通过sysfs方式 1) 所在目录:/sys/class/pwm,该目录下的文件为pwmchipX,为PWM控器,I.MX6ULL有八个pwm控制器 1.1 pwm 控制器 PWM控制器里内容(即pw…

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项 第 一 题 - - - 移 除 元 素方 法 一 - - - 双 重 循 环方 法 二 - - - 双 指 针方 法 三 - - - 相 向 双 指 针(面 对 面 移 动) 第 二 题 - - -…

设计模式系列(03):设计原则(二):DIP、ISP、LoD

本文为设计模式系列第3篇,聚焦依赖倒置、接口隔离、迪米特法则三大设计原则,系统梳理定义、实际业务场景、优缺点、最佳实践与常见误区,适合系统学习与团队协作。 目录 1. 引言2. 依赖倒置原则(DIP)3. 接口隔离原则(ISP)4. 迪米特法则(LoD)5. 常见误区与反例6. 最佳实…

计算机图形学中MVP变换的理论推导

计算机图形学中MVP变换的理论推导 课程地址:Computing the Pixel Coordinates of a 3D Point 知识铺垫:矩阵的真实内涵 矩阵的每一列/行(左乘和右乘的区别)代表了新坐标系的基向量在原基向量构成的坐标系中的坐标,这…

先说爱的人为什么先离开

2025年5月19日,15~23℃,贼好的一天,无事发生 待办: 2024年税务申报 《高等数学2》取消考试资格学生名单 《物理[2]》取消考试资格名单 5月24日、25日监考报名 《高等数学2》备课 《物理[2]》备课 职称申报材料 教学技能大赛PPT 遇…

面试中的线程题

原文链接:线程题大全 Java 并发库同步辅助类 CountDownLatch 工作机制:初始化一个计数器,此计数器的值表示需要等待的事件数量。 提供了两个主要方法: await():当一个线程调用此方法时,它将阻塞&#…

Linux梦开始的地方

1.概率 经过C语言,数据结构,C的学习我们现在要开始学习Linux的学习了。我们学习Linux是从四部分来进行的: 1.Linux初识,Linux环境,Linux指令,Linux开发环境。 2.Linux系统。 3.Linux网络 4.MySQL Lin…

“二维前缀和”算法原理及模板

在学习本篇内容前建议先学习一下“一维前缀和” 一维前缀和 算法https://blog.csdn.net/czt230610/article/details/148012923?fromshareblogdetail&sharetypeblogdetail&sharerId148012923&sharereferPC&sharesourceczt230610&sharefromfrom_link接下来…

软件设计师CISC与RISC考点分析——求三连

一、考点分值占比与趋势分析(CISC与RISC) 综合知识分值统计表 年份考题数量分值分值占比考察重点2018111.33%指令特征对比2019111.33%控制器实现方式2020222.67%寄存器数量/流水线技术2021111.33%寻址方式对比2022222.67%指令复杂度/译码方式2023111.3…

顺 序 表:数 据 存 储 的 “ 有 序 阵 地 ”

顺 序 表:数 据 存 储 的 “ 有 序 阵 地 ” 线 性 表顺 序 表 - - - 顺 序 存 储 结 构顺 序 表 的 操 作 实 现代 码 全 貌 与 功 能 介 绍顺 序 表 的 功 能 说 明代 码 效 果 展 示代 码 详 解SeqList.hSeqList.ctest.c 总 结 💻作 者 简 介&#xf…

网络安全深度解析:21种常见网站漏洞及防御指南

一、高危漏洞TOP 10 1. SQL注入(SQLi) 原理:通过构造恶意SQL语句突破系统过滤机制 典型场景: - 联合查询注入: union select 1,version(),3--+ - 布尔盲注:and (select substr(user(),1,1)=r) - 时间盲注:;if(now()=sysdate(),sleep(5),0)/ 防御方案: - 严格参数化查…

代码上传gitte仓库

把代码push上去就行