基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读

Fast Text-to-Audio Generation with Adversarial Post-Training 论文解析

一、引言与背景

  • 文本到音频系统的局限性:当前文本到音频生成系统性能虽佳,但推理速度慢(需数秒至数分钟),限制了其在创意领域的应用。

  • 研究目标:加速高斯流模型(扩散模型或修正流模型),避免传统蒸馏方法的缺陷。

  • 现有加速方法的不足

    • 蒸馏方法需大量资源(在线方法需同时存储多个模型,离线方法需预生成轨迹-输出对),且可能继承教师模型的低多样性和过饱和伪影。

    • 非蒸馏的对抗式后训练方法在图像领域有一定探索,但在音频领域尚未有成熟方案。

二、ARC 方法论

(一)修正流预训练

  • 目标:学习在文本条件 c 下,将数据分布 p0 和先验分布 p1(如各向同性高斯噪声)之间的转换模型,以从 p1 生成 p0 样本。

  • 前向腐蚀过程:通过添加噪声将数据转化为噪声表示(公式 1)。

  • 逆向生成过程:解常微分方程(ODE,公式 2),预测流的瞬时速度(公式 3)进行训练。

(二)对抗相对论-对比后训练(ARC)

  • 核心思想:用对抗损失替代基于 l2 的条件均值损失,利用判别器提供分布级反馈,减少所需采样步骤。

  • 优势:避免蒸馏方法的高成本,无需生成和存储轨迹-输出对,也无需依赖预训练教师模型性能。

  • 联合优化目标(公式 4):结合对抗相对论损失(LR)和对比损失(LC)。

(三)对抗相对论损失(LR)

  • 训练流程(图 1):

    • 对真实样本 x0 添加噪声得 xt,经生成器得生成样本 ˆx0。

    • 再对 ˆx0 和 x0 添加噪声,输入判别器。

    • 计算真实样本和生成样本在判别器空间的相对差异(公式 5 至 7)。

  • 关键特性:与标准 GAN 不同,LR 基于成对数据计算,生成器使生成样本在判别器空间相对真实样本更真实,判别器则相反。因文本条件任务中成对样本共享相同文本提示,提供更强梯度信号。

(四)对比损失(LC)

  • 提出背景:对抗损失单独使用会导致文本遵循性变差。

  • 实现方式(图 2):将判别器训练为音频-文本对比模型,最大化正确和错误提示对应真实样本在判别器空间的差异(公式 8)。

  • 作用:使判别器关注语义特征,提升提示遵循性,且无需使用 Classifier-Free Guidance(CFG),避免其对多样性和输出过饱和的负面影响。

(五)乒乓采样

  • 适用场景:ARC 后训练模型直接估计不同噪声水平下的干净输出,而非预测瞬时速度。

  • 工作原理:交替进行去噪和重新加噪,逐步优化样本质量。从初始噪声样本开始,反复去噪和加噪,最终逼近干净数据。

(六)加速作为奖励建模

  • 与语言模型偏好后训练的联系:ARC 的相对论目标类似于语言模型基于人类偏好对赢得-输掉样本对训练偏好模型。判别器隐式作为奖励模型,生成器则最大化相对奖励。

三、实验与评估

(一)模型架构

  • 生成模型:基于 Stable Audio Open(SAO),包含预训练自动编码器、T5 文本嵌入器和在潜在空间操作的扩散 Transformer(DiT)。对 DiT 进行改进以提升效率。

  • 判别器:基于预训练修正流初始化,包含输入嵌入层、部分 DiT 块和轻量级判别器头部。

(二)训练与采样细节

  • 数据集:使用 Freesound 样本(6,330 小时,472,618 音频),排除长形式 FMA 音乐。

  • 训练迭代:修正流模型训练 670k 迭代,每个加速算法在 8 个 H100 GPU 上微调 100k 迭代,批次大小 256,学习率 5×10−7。

  • 噪声分布:pgen(t) 为从 -6 到 2 的对数信噪比空间中的均匀分布;pdisc(s) 为移位对数正态分布,侧重中高信噪比区域。

(三)客观评估指标

  • 音频质量与语义对齐:采用 FDopenl3、KLpasst 和 CLAP 分数指标。

  • 多样性评估

    • 现有指标:报告 recall 和 coverage 指标(Rpasst 和 Cpasst),衡量 PASST 空间中的分布多样性。

    • 新提出指标:CLAP 条件多样性分数(CCDS),计算相同提示生成样本对的 CLAP 余弦距离平均值,距离低表示多样性低,反之则高。

  • 速度评估:报告实时因子(RTF,生成音频时长除以延迟)和 H100 上的 VRAM 峰值使用量。

(四)主观评估

  • 评估方式:使用 webMUSHRA 进行听力测试,参与者对多样性、音频质量和提示遵循性进行 5 分制评分。

  • 评估重点:关注与音乐制作相关的提示(如 “拉丁放克鼓组 115 BPM”)和空间复杂场景(如 “跑车经过”),以及更广泛、更模糊的提示(如 “燃烧的火焰” 和 “水”)以评估多样性。

(五)基线模型

  • Stable Audio Open(SAO):质量基线和加速参考点,模型较大且未针对速度优化。

  • 预训练修正流(RF):基础加速模型。

  • Presto:基于蒸馏的音频扩散加速方法,使用基模型和辅助分数模型最小化逆向 KL 损失并结合 GAN 损失。

  • 消融实验:对 ARC 进行消融,分别省略 LC 或用标准最小二乘对抗损失(LLS)替换 LR。

(六)结果与讨论

  • 性能对比:SAO 虽质量最佳但速度慢;加速模型(ARC、Presto 等)速度提升显著(比 SAO 快 100 倍,比预训练 RF 快 10 倍),指标表现相近。

  • Presto 的权衡:提升基 RF 模型质量,但严重损害多样性且恶化 FDopenl3。

  • ARC 的表现:进一步提升生成多样性,FDopenl3 表现最佳,但 MOS 质量评分略低于预训练 RF。其输出多样性更高,但提示遵循性稍低。

  • 消融实验结果

    • 仅用 LR 训练导致提示遵循性差,此时多样性高因生成器变成无条件模型。

    • 相对论损失在对抗加对比后训练中优于最小二乘损失。

    • 模型在 8 步时表现最佳,与小加速模型可能比大模型需要更多步数的发现一致。

  • CCDS 指标有效性:CCDS 与听力测试多样性结果完全一致,表明其可用于自动评估多样性。

(七)边缘设备优化

  • 优化手段:使用 Arm 的 KleidiAI 库(通过 XNNPACK 库集成到 LiteRT 运行时),对 Vivo X200 pro 手机进行动态 Int8 量化,仅对部分层进行量化,运行时动态量化激活。

  • 优化效果:推理时间从 15.3 秒(原始 F32)降至 6.6 秒,峰值运行时 RAM 使用量从 6.5GB 降至 3.6GB。高端(H100)和消费级(3090)GPU 分别实现 75ms 和 187ms 的速度。

(八)创意应用

  • 响应速度要求:为在创意工作流中作为“乐器”,文本到音频模型需响应迅速。降低消费级 GPU 延迟至 200ms 以下,提升音效设计灵感。

  • 音频到音频能力:利用乒乓采样实现风格迁移,无需额外训练。可通过语音录音初始化初始噪声样本实现语音到音频控制,或用强节奏录音初始化进行节拍对齐生成。

  • 局限性:模型内存和存储需求高(占数 GB RAM 和磁盘空间),对集成到多应用和高效分发构成挑战。

四、结论

  • ARC 的创新性:首个不依赖蒸馏或 CFG 的文本到音频模型加速方法,通过扩展对抗相对论损失并结合新颖对比判别器损失,大幅提升高斯流模型运行速度,同时保持质量并提升生成多样性。

  • 评估指标贡献:提出的 CCDS 多样性评估指标与感知评估一致,为自动评估多样性提供合理工具。

  • 未来展望:期望更高效和多样性的文本到音频模型能支持更广泛的创意应用。认识到此类模型的创意潜力,论文还探索音频到音频实验,并建议未来工作可聚焦于用针对性数据集微调以实现更精确的声音设计。

五、核心技术汇总表格

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/81163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI画图Stable Diffusion web UI学习笔记(中)

本文记录讲解AI画图工具Stable Diffusion web UI的部分基本使用方法,以便进行学习。AI画图Stable Diffusion web UI学习笔记分为上、中、下三篇文章。 我在 AI画图Stable Diffusion web UI学习笔记(上)_webui-CSDN博客 这篇文章中介绍了Stabl…

安全与智能的双向奔赴,安恒信息先行一步

人类文明发展的长河中,每一次技术变革都重新书写了安全的定义。 从蒸汽机的轰鸣到电力的普及,从互联网的诞生到人工智能的崛起,技术创新与变革从未停止对于安全的挑战。今天,我们又站在一个关键的历史节点:AI大模型的…

【Reality Capture 】02:Reality Capture1.5中文版软件设置与介绍

文章目录 一、如何设置中文二、如何设置界面分区三、如何切换二三维窗口四、工具栏有多个视图选项卡RealityCapture是虚幻引擎旗下一款三维建模软件,跟我们常用的三维建模软件一样,可以从图像或激光扫描中创建实景三维模型和正射影像等产品。可用于建筑、测绘、游戏和视觉特效…

真题卷001——算法备赛

蓝桥杯2024年C/CB组国赛卷 1.合法密码 问题描述 小蓝正在开发自己的OJ网站。他要求用户的密码必须符合一下条件: 长度大于等于8小于等于16必须包含至少一个数字字符和至少一个符号字符 请计算一下字符串,有多少个子串可以当作合法密码。字符串为&am…

17.three官方示例+编辑器+AI快速学习webgl_buffergeometry_lines

本实例主要讲解内容 这个Three.js示例展示了如何使用BufferGeometry创建大量线段,并通过**变形目标(Morph Targets)**实现动态变形效果。通过随机生成的点云数据,结合顶点颜色和变形动画,创建出一个视觉效果丰富的3D线条场景。 核心技术包括…

InfluxDB 2.7 连续查询实战指南:Task 替代方案详解

InfluxDB 2.7 引入了 Task 功能,作为连续查询(CQ)的现代替代方案。本文详细介绍了如何使用 Task 实现传统 CQ 的功能,包括语法解析、示例代码、参数对比以及典型应用场景。通过实际案例和最佳实践,帮助开发者高效迁移并…

Pytorch张量和损失函数

文章目录 张量张量类型张量例子使用概率分布创建张量正态分布创建张量 (torch.normal)正态分布创建张量示例标准正态分布创建张量标准正态分布创建张量示例均匀分布创建张量均匀分布创建张量示例 激活函数常见激活函数 损失函数(Pytorch API)L1范数损失函数均方误差损失函数交叉…

大模型在数据分析领域的研究综述

大模型在业务指标拆解中的应用场景与方法研究 随着人工智能技术的快速发展,大模型(Large Language Models, LLMs)在数据分析领域的应用日益广泛。尤其是在业务指标拆解这一复杂任务中,大模型展现了其独特的价值和潜力。通过对多维…

JAVA:ResponseBodyEmitter 实现异步流式推送的技术指南

1、简述 在许多场景下,我们希望后端能够以流式、实时的方式推送数据给前端,比如消息通知、日志实时展示、进度条更新等。Spring Boot 提供了 ResponseBodyEmitter 机制,可以让我们在 Controller 中异步地推送数据,从而实现实时流式输出。 样例代码:https://gitee.com/lh…

Spring Boot循环依赖的陷阱与解决方案:如何打破“Bean创建死循环”?

引言 在Spring Boot开发中,你是否遇到过这样的错误信息? The dependencies of some of the beans in the application context form a cycle 这表示你的应用出现了循环依赖。尽管Spring框架通过巧妙的机制解决了部分循环依赖问题,但在实际开…

如何阅读、学习 Tcc (Tiny C Compiler) 源代码?如何解析 Tcc 源代码?

阅读和解析 TCC(Tiny C Compiler) 的源代码需要对编译器的基本工作原理和代码结构有一定的了解。以下是分步骤的指南,帮助你更高效地学习和理解 TCC 的源代码: 1. 前置知识准备 C 语言基础:TCC 是用 C 语言编写的&…

Java Set系列集合详解:HashSet、LinkedHashSet、TreeSet底层原理与使用场景

Java Set系列集合详解:HashSet、LinkedHashSet、TreeSet底层原理与使用场景 一、Set系列集合概述 1. 核心特点 无序性:存取顺序不一致(LinkedHashSet除外)。唯一性:元素不重复。无索引:无法通过索引直接访…

解决 CentOS 7 镜像源无法访问的问题

在国内使用 CentOS 系统时,经常会遇到镜像源无法访问或者下载速度慢的问题。尤其是默认的 CentOS 镜像源通常是国外的,如果你的网络环境无法直接访问国外服务器,就会出现无法下载包的情况。本文将介绍如何修改 CentOS 7 的镜像源为国内镜像源…

云计算与大数据进阶 | 26、解锁云架构核心:深度解析可扩展数据库的5大策略与挑战(上)

在云应用/服务的 5 层架构里,数据库服务层稳坐第 4 把交椅,堪称其中的 “硬核担当”。它的复杂程度常常让人望而生畏,不少人都将它视为整个架构中的 “终极挑战”。 不过,也有人觉得可扩展存储系统才是最难啃的 “硬骨头”&#…

Linux——UDP/TCP协议理论

1. UDP协议 1.1 UDP协议格式 系统内的UDP协议结构体: 注1:UDP协议的报头大小是确定的,为8字节 注2:可以通过报头中,UDP长度将UDP协议的报头和有效载荷分离,有效载荷将存储到接收缓冲区中等待上层解析。 注…

考研复习全年规划

25考研以330分成功上岸。 备考期间,我深知学习规划的重要性,为大家精心整理了一份初试备考时间线任务规划,希望能为正在备考的同学们提供参考。如果你对如何规划学习路线仍感迷茫,不妨参考这份时间表,合理分配时间&…

PhpStudy | PhpStudy 环境配置 —— PhpStudy 目录结构 环境变量配置 · Windows 篇

🌟想了解这个工具的其它相关笔记?看看这个:[网安工具] 服务器环境配置工具 —— PhpStudy 使用手册 在前面的章节中,笔者详细介绍了如何在 Windows 和 Linux 系统中安装 PhpStudy,但可能会有崽崽在安装完成后发现依旧…

DDS(数据分发服务) 和 P2P(点对点网络) 的详细对比

1. 核心特性对比 维度 DDS P2P 实时性 微秒级延迟,支持硬实时(如自动驾驶) 毫秒至秒级,依赖网络环境(如文件传输) 架构 去中心化发布/订阅模型,节点自主发现 完全去中心化,节…

java中XML的使用

文章目录 什么是XML特点XML作用XML的编写语法基本语法特殊字符编写 约束XML的书写格式DTD文档schema文档属性命名空间XML命名空间的作用 解析XML的方法​​DOM解析XMLDOM介绍DOM解析包:org.w3c.dom常用接口DOM解析包的使用保存XML文件添加DOM节点修改/删除DOM节点 S…

Spring Boot异步任务失效的8大原因及解决方案

Spring Boot异步任务失效的8大原因及解决方案 摘要:在使用Spring Boot的@Async实现异步任务时,你是否遇到过异步不生效的问题?本文总结了8种常见的异步失效场景,并提供对应的解决方案,帮助你彻底解决异步任务失效的难题。 一、异步失效的常见场景 1. 未启用异步支持 ❌ …