猫头虎AI 荐研|腾讯开源长篇叙事音频生成模型 AudioStory:统一模型,让 AI 会讲故事

🐯猫头虎荐研|腾讯开源长篇叙事音频生成模型 AudioStory:统一模型,让 AI 会讲故事

大家好,我是猫头虎 🐯🦉,又来给大家推荐新鲜出炉的 AI 开源项目
这次要聊的是腾讯 ARC Lab 最近开源的一个相当炸裂的模型 —— AudioStory

一句话总结:它能把文本、视频,甚至已有音频,变成 长篇、完整、有情绪、有逻辑的音频故事
👉 有声小说、动画配音、长音频叙事,全都不在话下。
在这里插入图片描述

文章目录

  • 🐯猫头虎荐研|腾讯开源长篇叙事音频生成模型 **AudioStory**:统一模型,让 AI 会讲故事
    • ✨ 为什么值得关注?
    • 📖 它能做什么?
      • 1️⃣ 视频配音(Video Dubbing)
      • 2️⃣ 文本转长篇音频(Text-to-Long Audio)
      • 3️⃣ 音频续写(Audio Continuation)
    • 🧩 技术原理
    • ⚙️ 安装与上手
    • 📊 实验结果
    • 🔋 致谢与生态
    • 🐯猫头虎点评


✨ 为什么值得关注?

我们先来看看痛点。
传统的 Text-to-Audio (TTA) 技术,的确能生成短音频,但要做长篇叙事就会遇到三大难题:

  1. 场景割裂 —— 一会儿是森林,一会儿是都市,过渡生硬;
  2. 情绪漂移 —— 上一秒还在悲伤,下一秒突然变嗨,完全不连贯;
  3. 模块割裂 —— 大多数方案要把理解、生成、后处理拆成好几个流水线模块,工程复杂,效果还经常对不上。

AudioStory 的厉害之处在于:
它是一个 统一模型,把 指令理解 + 音频生成 + 跨场景一致性 全部揉在一起。

这意味着它不仅能生成自然过渡的叙事音频,还能稳住整体基调和情感,效果远超扩散模型或 LLM+扩散的组合。
研究团队也拿出了数据:在 FD (Fréchet Distance)FAD (Fréchet Audio Distance) 两个关键指标上,AudioStory 的表现全面优于基线模型。


📖 它能做什么?

AudioStory 提供了三大核心能力:

1️⃣ 视频配音(Video Dubbing)

Tom & Jerry 这样的动画片,你只需要给出视觉字幕,AudioStory 就能自动生成拟声和对白。
它还能跨域泛化,比如 Snoopy哪吒Donald Duck熊出没 风格全都能玩。

换句话说:你给它一个视频,模型能自动加上“活灵活现的声音轨”。


2️⃣ 文本转长篇音频(Text-to-Long Audio)

和普通的 TTS 不一样,它能把你的文本变成 完整的场景叙事

示例指令:

生成一段完整音频:Jake Shimabukuro 在录音室弹奏复杂的尤克里里曲目,获得掌声,并在采访中讨论职业生涯。总时长 49.9 秒。

生成结果包含:演奏声 🎶 + 环境声 🌌 + 掌声 👏 + 采访 🎤 —— 全流程沉浸式叙事。


3️⃣ 音频续写(Audio Continuation)

给定一段已有音频,AudioStory 能理解上下文,并自然衔接后续。

例如:输入一段篮球教练训练的录音,模型能生成教练继续讲解战术的音频。
就像 GPT 写小说的续写,但对象换成了音频流。


🧩 技术原理

在这里插入图片描述

核心架构是一个 理解–生成统一框架

  1. 输入理解

    • LLM 先对输入(文本 / 音频 / 视频字幕)进行分析,拆解为有逻辑顺序的 子事件
  2. 推理生成

    • 每个子事件由 LLM 生成 描述字幕 (captions)语义 token残余 token
    • 这些 token 被送进 DiT(Diffusion Transformer),合成高保真音频片段。
  3. 一致性机制

    • Bridging Query:保持单场景内部的语义稳定;
    • Consistency Query:确保跨场景的情感和叙事基调统一。

最终效果:情绪和过渡都自然得像真人配音师。


⚙️ 安装与上手

项目已开源在 GitHub,环境配置很友好:

git clone https://github.com/TencentARC/AudioStory.git
cd AudioStory
conda create -n audiostory python=3.10 -y
conda activate audiostory
bash install_audiostory.sh

推理示例:

python evaluate/inference.py \--model_path ckpt/audiostory-3B \--guidance 4.0 \--save_folder_name audiostory \--total_duration 50

依赖环境:

  • Python >= 3.10
  • PyTorch >= 2.1.0
  • NVIDIA GPU + CUDA

📊 实验结果

团队在多任务测试中给出了硬指标:

  • FD/FAD:明显优于扩散模型和 LLM+扩散基线。
  • 叙事一致性:在动画配音和自然场景音频中,人类听感评测也显著提升。

可以说,AudioStory 把长篇叙事音频生成拉到了一个新高度。


🔋 致谢与生态

在持续噪声去除器(continuous denoisers)构建上,AudioStory 参考了 SEED-XTangoFlux 项目。
学术圈的相互借鉴与迭代,正推动整个 TTA 领域的飞速发展。


🐯猫头虎点评

为什么我推荐大家关注 AudioStory

  1. 场景落地感强 —— 有声小说、播客、动画后期、虚拟主播,马上能用。
  2. 统一模型思路 —— 省去了多模块拼接的麻烦,更简洁也更稳健。
  3. 开源可玩性 —— 代码+模型+Demo 全放出,研究者和开发者都能快速上手。

未来如果结合 多模态大模型(如视觉+音频),再叠加 实时生成,那真的就是“AI 声音导演”了。

👉 地址奉上:https://github.com/TencentARC/AudioStory


🐯 总结一句:
AudioStory = 让 AI 不仅能说话,更能讲故事。
从短音频走向长篇叙事,这是 TTA 的关键突破,也可能是下一波“有声内容产业”的催化剂。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921187.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921187.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

收藏!VSCode 开发者工具快捷键大全

一、文件操作快捷键1. 打开与关闭文件Ctrl O(Windows/Linux)或 Command O(Mac):打开文件,可以通过输入文件名快速查找并打开相应文件。Ctrl W(Windows/Linux)或 Command W&#…

Simulations RL 平台学习笔记

1. 选择标准 1.1 开源项目,🌟star数量越多越好 2. 常见平台 2.1 🌟18.6k ML-Agents:基于Unity实现 2.2 🌟1.2k Godot RL Agents

【国内电子数据取证厂商龙信科技】IOS 逆向脱壳

我们都知道,大多数的 APP 在开发的时候一般都会加上一层壳,例如 爱加密、梆梆、360、网易易盾等等。那 APK 的脱壳我们见得多了,那 IOS 逆向脱壳又是怎样子的呢?首先咱们先了解一下为什么要砸壳,因为 IOS 开发者开发软…

基于STM32单片机温湿度PM2.5粉尘甲醛环境质量wifi手机APP监测系统

1 基于STM32单片机温湿度PM2.5粉尘甲醛环境质量WiFi手机APP监测系统 本系统旨在实现对环境中温度、湿度、PM2.5粉尘浓度以及甲醛浓度的实时监测,并通过WiFi技术将数据传输至手机APP端,实现移动化与可视化的环境质量检测。系统在硬件上主要依赖STM32单片…

用C++实现日期类

在上学的时候,总是在计算还有多少天放假;在上班的时候,总是在计算还有多久发工资?我们一般通过日历得到结果,那自己能不能实现一些基本的功能呢?答案是可以的!需要实现内容:1. 日期加…

百度网盘基于Flink的实时计算实践

01 概览 随着数字化转型的来临,企业对于数据服务的实时化需求日益增长,在大规模数据和复杂场景的情况下,Flink在实时计算数据链路中扮演着极为重要的角色,本文介绍了网盘如何通过 Flink 构建实时计算引擎,从而提供高性…

【CMake】策略

目录 一.CMake策略简要理解 1.1.第一阶段:童年时期(旧行为,The "Old Way") 1.2.第二阶段:成长与改进(引入新行为,The "New Way") 1.3.第三阶段:…

LLM中的function call

1. 概念 **Function Call(函数调用)**是指在编程中,程序可以通过调用预定义的函数来执行特定的操作。在LLM中,函数调用的概念扩展了模型的能力,使其不仅能够生成文本,还能与外部系统进行交互。通过函数调用…

【系统架构设计(13)】项目管理上:盈亏平衡分析与进度管理

文章目录零、核心思想:经济性与时效性的动态平衡一、盈亏平衡分析:项目的经济生命线1、核心公式与决策逻辑二、进度管理:项目的时效生命线1. **工作分解结构(WBS)**2. 进度管理流程3、关键路径法关键路径法&#xff08…

【SuperSocket 】利用 TaskCompletionSource 在 SuperSocket 中实现跨模块异步处理客户端消息

利用 TaskCompletionSource 在 SuperSocket 中实现跨模块异步处理客户端消息 在使用 SuperSocket 构建 TCP 服务时,我们经常会遇到这样的需求: 服务端接收到客户端数据后,需要将数据交给其他模块处理处理完成后再将结果返回给调用模块或客户端…

《IC验证必看|semaphore与mailbox的核心区别》

月薪30K验证工程师必答:SystemVerilog中semaphore与mailbox的核心区别,及必须用semaphore的场景深度解析 在验证工程师的技能体系里,线程同步与资源管控是区分“基础会用”(20K水平)和“精通工程化”(30K水…

Spring线程池ThreadPoolTaskExecutor‌详解

ThreadPoolTaskExecutor‌写法Bean(name "taskExecutor") public ThreadPoolTaskExecutor taskExecutor() {ThreadPoolTaskExecutor executor new ThreadPoolTaskExecutor();executor.setCorePoolSize(8); // 8核CPU服务器建议值executor.setMaxPoolSize(…

Unity之安装教学

UnityHub下载 下载官网地址:Unity Hub下载地址 打开网址右上角,登录/注册账号 登录完毕后,点击下载 安装Unity Hub 双击傻瓜式安装 安装完成 启动UnityHub 双击启动 左上角设置 设置中文 左上角登录账号 添加免费许可证 设置-许可证-添加 安装…

Redis 集群模式与高可用机制

最近在准备面试,正把平时积累的笔记、项目中遇到的问题与解决方案、对核心原理的理解,以及高频业务场景的应对策略系统梳理一遍,既能加深记忆,也能让知识体系更扎实,供大家参考,欢迎讨论。在分布式环境下&a…

Flutter + Web:深度解析双向通信的混合应用开发实践

Flutter Web:深度解析双向通信的混合应用开发实践 前言 在当今快速发展的移动应用开发领域,开发者们始终在寻求一种能够平衡开发效率、跨平台能力和用户体验的完美方案。原生开发性能卓越,但双平台(iOS/Android)开发…

如何查看Linux系统中文件夹或文件的大小

在日常运维和开发工作中,了解文件夹和文件占用的磁盘空间是非常重要的。尤其是当你在服务器上部署应用(如 Jenkins)时,合理监控磁盘使用情况可以避免磁盘空间不足导致的各种问题。在 Linux 系统中,我们可以使用一些简单…

豪华酒店品牌自营APP差异对比分析到产品重构

一、万豪国际集团旗下豪华酒店品牌及统一APP 万豪旗下奢华品牌均整合于 「万豪旅享家(Marriott Bonvoy)」APP,会员可通过该平台预订、管理积分及享受跨品牌服务。以下为核心豪华品牌: 1. 经典奢华品牌 丽思卡尔顿酒店(The Ritz-Carlton) 定位:顶级奢华,以管家服务、历…

ESLint 相关

no-unused-vars 等常见报错提醒关闭 1. no-unused-vars 报错示例: useMemo is defined but never used no-unused-vars解决方式 方法一:局部禁用某一行 // eslint-disable-next-line no-unused-vars const result useMemo(() > {}, []);方法二&…

1分钟生成爆款相声对话视频!Coze智能体工作流详细搭建教程,小白也能轻松上手

最近看到一个账号,用AI将传统相声对话做成趣味短视频,单条播放量轻松破百万。这种视 频看似复杂,其实用Coze智能体工作流1分钟就能搞定,完全不需要剪辑基础。工作流功能 用Coze一键生成爆款相声对话视频,无需剪辑直接发…

pinia状态管理工具

pinia状态管理工具Pinia 是 Vue.js 官方推荐的新一代状态管理库,可以看作是 Vuex 的替代品。1. 什么是 Pinia? Pinia 是 Vue 的专属状态管理库,它允许你跨组件或页面共享状态。由 Vue.js 核心团队维护,并且对 TypeScript 有着极其…