AudioLLM

参考链接:https://mp.weixin.qq.com/s/cscrUn7n_o6PdeQRzWpx8g
视频教程:https://www.bilibili.com/video/BV1LGbozkEDY
模型代码:https://github.com/boson-ai/higgs-audio

如果是两个模型加在一起:一个语言模型,一个文本转语音模型有问题
一个是耗时问题,另一个是语音转文本再转语音会丢失非语言信息,比如语气和环境音

传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为系统指令(system)用户输入(user)、**模型回复(assistant)**三个部分。

system告诉模型,需要做什么事情,例如回答该问题、写一段文字或者其他
user就是告知事情的详细内容,例如问题具体是什么、文字要什么风格。所以如果要让模型支持语音,就需要为模型增加一个系统命令,在user里输入要转录为语音的文字,让模型从system里输出对应语音数据。这样语音任务就能转换成相同的处理格式,直接打通语音和文本之间的映射,通过追加更多的数据和算力,直接scaling law“大力出奇迹”。

在这里插入图片描述

中文的一个字:token
语言模型的输出是一个softmax,本质上是一个多分类的问题
语音tokenizer:需要将语音这样连续的信号变为离散的token

现有的方法是将一秒的语音信号裁切成多段(如100毫秒一段),为每一段匹配最相似的预定义模板(如45个模板),然后将其表示为长度为10的编号序列,也就是一个个token。
但这样做,虽然可以将一小时的音频从60兆压缩到0.16兆,但质量相当糟糕,所以需要优先保留语音的语义信息,而声学信号只保留少量部分,后续再通过其他手段还原。
于是他们训练了一个统一的离散化音频分词器,以每秒25帧的速度运行,同时保持甚至提高音频质量,以捕获语义和声学特征
在这里插入图片描述

常用压缩:1小时 128kbps mp3 ~60MB
设64K audio tokens, 24 tokens per second
1秒audio:log2(64K)x24=384bit1小时audio ~0.16MB对比mp3,又压缩了375x

优先应该保持语义的信号
语言模型能将一个东西的语音的表示和文字的表示能够做一个映射
将语音的语义尽量映射回文本,使得能够利用上文本语音模型

将语音对话表示为相应的system(场景描述、声学特征、人物特征等)、user(对话文本)、assistant(对应音频输出)的形式。

同样的模型架构训练一个额外的语音理解模型
用户给你一段语音,请你分析它的场景,它里面有哪些人,说什么东西,情绪,。
把生成模型出来的东西作为用户的输入
生成模型system prompt是对场景的描述
用户给你的内容作为system的输出

教第一个徒弟打拳
教第二个徒弟踢腿
然后让两个徒弟互相打,最后期望两个徒弟都能够学会拳脚功夫

文字作为上一轮用户的输入,语音作为上一轮系统的输出,在给一段文字就能输出和这个人声音一致的语音。



1. 语音信号离散化表示(关键突破)

问题:语音是连续信号,传统方法(如分段+模板匹配)压缩后质量差。
解决方案

  • 统一音频分词器(Unified Audio Tokenizer)
    • 分层离散化:将语音信号分解为两类token:
      • 语义token(高层):捕获文本内容、意图(映射到文本空间,类似ASR)。
      • 声学token(低层):保留音色、语调等特征(通过矢量量化/VQ-VAE压缩)。
    • 高帧率处理:以每秒25帧的速度编码,平衡信息密度和连续性。
    • 联合训练:语义和声学token的编码器/解码器端到端优化,避免传统模板匹配的信息丢失。

效果

  • 语音压缩后仍能保留语义和情感信息(如“愤怒”语调的声学特征)。
  • 后续用LLM处理离散token时,类似处理文本,无需额外设计连续信号模块。

2. 数据构建与清洗(质量保障)

问题:语音-文本对齐数据稀缺,公开数据质量差。
解决方案

  • 数据来源:购买版权数据+合规抓取,覆盖多样化场景(对话、音乐、环境音等)。
  • 严格过滤
    • 通过ASR模型+人工规则剔除低质量音频(如背景噪声大、内容不连贯)。
    • 仅保留10%数据(1000万小时高质量数据)。
  • 自生成标注
    • 用预训练的AudioVerse模型(语音→文本/场景分析)自动标注语音的system字段(场景、情绪等)。
    • 形成(system: 场景描述, user: 文本, assistant: 音频)的三元组训练数据。

效果

  • 数据多样性高且对齐精准,模型能学习复杂语音-文本关联(如“笑着回答问题”)。

3. 模型架构设计(性能核心)

核心思路:将语音任务转化为LLM熟悉的“文本生成”格式。
具体实现

  • 多任务统一框架
    • 输入:system指令(如“生成愤怒的男声”)+ user文本 → 输出:声学token序列。
    • 模型本质是条件式token预测(类似文本生成,但输出是语音token)。
  • 双模型协同训练
    • AudioVerse:语音→文本/场景分析(提供system标注)。
    • 主模型:文本+场景→语音生成。
    • 两者互促,类似GAN的对抗训练(但更温和)。

优化点

  • 语义优先:模型优先学习语音的语义token,再细化声学token(避免早期过拟合到音色细节)。
  • 延迟优化:流式生成声学token,实时拼接(类似文本模型的逐词生成)。

4. 为什么性能显著提升?

  • 语义理解更强
    • 语音token与文本空间对齐,模型能利用文本预训练知识(如GPT的推理能力)。
    • 例:生成“悲伤的诗歌朗读”时,模型先理解“悲伤”的文本语义,再匹配对应声学特征。
  • 端到端联合训练
    • 传统TTS分模块(文本→音素→声学),而沐神模型统一优化,避免误差累积。
  • 数据规模效应
    • 1000万小时数据远超传统TTS数据集(如LJSpeech仅24小时),覆盖长尾场景。

5. 关键优化总结

模块传统方法沐神团队的优化提升点
语音表示手工模板匹配分层离散化token(语义+声学)质量↑,兼容文本模型
数据构建小规模纯净数据海量数据+严格过滤+自生成标注多样性↑,对齐精度↑
模型训练独立训练ASR/TTS模块语音-文本联合训练,双模型互促语义和声学协同优化
任务泛化单一任务(如TTS)统一框架支持生成、分析、实时交互多任务性能均衡

6. 可玩性功能示例

  • 声音克隆:输入目标语音片段(5秒),模型提取声学token后生成新内容。
  • 实时情绪交互:检测用户语音情绪(如愤怒),生成共情的语音回复。
  • 音乐生成:将歌词+风格描述(system)转换为歌唱音频。

若想深入技术细节,建议阅读代码中的tokenizer.py(音频离散化)和trainer.py(多任务损失函数),关键是如何平衡语义和声学token的损失权重。

音频分词器:https://github.com/boson-ai/higgs-audio/blob/main/tech_blogs/TOKENIZER_BLOG.md
提出的DualFFN架构:https://github.com/boson-ai/higgs-audio/blob/main/tech_blogs/ARCHITECTURE_BLOG.md
在这里插入图片描述
这里可以试用

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContentimport torch
import torchaudio
import time
import clickMODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"system_prompt = ("Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)messages = [Message(role="system",content=system_prompt,),Message(role="user",content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",),
]
device = "cuda" if torch.cuda.is_available() else "cpu"serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)output: HiggsAudioResponse = serve_engine.generate(chat_ml_sample=ChatMLSample(messages=messages),max_new_tokens=1024,temperature=0.3,top_p=0.95,top_k=50,stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92589.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于 CEP 引擎的算法拆单与调度实践—基础篇

在金融市场中&#xff0c;大额订单的一次性交易可能会对市场价格产生较大冲击&#xff0c;导致交易成本增加。例如&#xff0c;大额买入订单可能会迅速推高股价&#xff0c;使后续买入成本上升&#xff1b;大额卖出订单则可能打压股价&#xff0c;造成资产贱卖。拆单算法通过将…

开源 C# TCP 通信框架 SocketDJ 发布:轻量、免费、可扩展

前言市面上的网络通信框架琳琅满目&#xff0c;功能强大者有之&#xff0c;但不少都存在功能闭源、商业收费、学习成本高等问题。作为一名热爱底层技术的开发者&#xff0c;我始终相信&#xff1a;基础通信能力应当简单、透明且免费。最近正好有项目需求&#xff0c;索性动手从…

移动机器人路径规划中ROS2中间件性能的研究综述

导读&#xff1a; 随着移动机器人在工业自动化、特种作业及智能服务领域的广泛应用&#xff0c;其路径规划能力越来越依赖机器人操作系统ROS2的通信性能。ROS2通过去中心化架构与数据分发服务中间件显著提升了系统可靠性&#xff0c;但动态复杂环境中路径规划对通信延迟、带宽…

【昇腾】Atlas 500 A2 智能小站制卡从M.2 SATA盘启动Ubuntu22.04系统,重新上电卡死没进系统问题处理_20250808

一、问题背景 Atlas 500 A2智能小站是华为基于20T 12G版本的Atlas 200I A2加速模块开发的面向广泛边缘应用场景的轻量边缘设备&#xff0c;具有超强计算性能、配置灵活、体积小、支持温度范围宽、环境适应性强、易于维护 管理等特点的产品。Atlas 500 A2智能小站主要应用在智能…

sigaction 中 sa_handler = SIG_IGN 的深度解析与应用实践

sigaction 中 sa_handler SIG_IGN 的深度解析与应用实践 核心意义&#xff1a;主动忽略信号 当 sa_handler 设置为 SIG_IGN 时&#xff0c;内核将完全丢弃指定的信号&#xff0c;不会&#xff1a; 执行默认行为调用任何处理函数中断进程的正常执行 这与 SIG_DFL&#xff08;默…

【LLM实战|langchain、qwen_agent】RAG高级

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?type=blog 0. 前言 RAG高级 1. RAG 高效召回方法 合理设置TOP-K 改进索引算法 -知识图谱 引入重排序 重排序模型 BGE-Rerank Cohere Rerank 混合检索 向量索引+关键词索引…

C++方向知识汇总(一)

关于单例模式1.什么是单例模式&#xff1f;答&#xff1a;单例模式是一种创建型设计模式&#xff0c;确保一个类在运行期间仅有一个实例&#xff0c;提供全局唯一的访问点2.单例模式的目的&#xff1f;答&#xff1a;避免重复创建资源消耗大的对象&#xff0c;例如日志系统、线…

学习:JS[8]本地存储+正则表达式

一.本地存储1.介绍将数据存储到用户浏览器当中设置、读取方便、页面刷新不丢失数据2.本地存储分类-localStoragea.语法(1)存储数据//存储数据 localStorage.setItem(键,值)如 localStorage.setItem(uname,哈哈)(2)获取数据//获取方式 都加引号 localStorage.getItem(键) localS…

C++算法练习:单词识别

做题记录&#xff1a;牛客习题&#xff1a;单词识别 相关题目代码已经提交到gitee中&#xff1a;楼田莉子 (riko-lou-tian) - Gitee.com喜欢请点个赞谢谢 目录 题目&#xff1a; C 字符函数头文件头文件&#xff1a;&#xff08;C 标准库&#xff09;核心函数功能说明&#…

从免费到盈利:Coze智能体1小时封装变现全流程指南——井云科技

在AI技术普惠的浪潮下&#xff0c;Coze等智能体平台让零代码开发者也能快速构建功能强大的AI助手。然而&#xff0c;许多创作者在完成智能体开发后&#xff0c;却面临“工具免费、成本自担”的困境——用户无限制调用导致算力成本飙升&#xff0c;想收费又缺乏成熟的支付与用户…

C++学习之STL学习:map/set

通过前面的学习&#xff0c;我们已经对C STL有了初步了解。然而&#xff0c;STL作为一个庞大复杂的体系&#xff0c;远不止这些内容。接下来&#xff0c;我们将深入探讨STL中的另外两个重要组件——map和set。 作者的个人gitee&#xff1a;楼田莉子 (riko-lou-tian) - Gitee.co…

[学习] CORDIC算法详解:从数学原理到反正切计算实战

CORDIC算法详解&#xff1a;从数学原理到反正切计算实战 文章目录CORDIC算法详解&#xff1a;从数学原理到反正切计算实战引言一、数学原理二、求解流程&#xff08;旋转模式&#xff09;三、典型应用场景四、反正切计算示例&#xff08;Python实现&#xff09;五、算法流程可视…

3款强力的Windows系统软件卸载工具

1、Geek 下载地址&#xff1a;https://download.csdn.net/download/weixin_42203093/91625765 Geek Uninstaller 是一款专业的 Windows 软件卸载工具&#xff0c;主要用于卸载软件并清理残留垃圾&#xff1a; 特点 体积小巧便携&#xff1a;软件体积约为 1.7M&#xff0c;是单…

AcWing 4579. 相遇问题

这道题做个今天的结尾 比较简单 正在备战csp吗&#xff0c;正好刷一下 难度&#xff1a;简单时/空限制&#xff1a;1s / 256MB总通过数&#xff1a;1738总尝试数&#xff1a;2584来源&#xff1a; CSP-J 2022 模拟赛 原题链接 4579. 相遇问题 - AcWing题库 题目描述 一…

基于clodop和Chrome原生打印的标签实现方法与性能对比

今天想看看&#xff0c;基于clodop和Chrome原生打印的标签实现方法与性能对比。先看看DeepSeek关于这个问题的回答&#xff01; CloudPrint 和 Chrome 原生打印的区别 基本概念差异 CloudPrint (Clodop) 是基于云的打印服务解决方案需要安装专门的客户端程序支持跨平台、跨设备…

百度网盘如何做到下载速度最快?OpenSpeedy绿色安装版下载,开源免费网盘加速

下载地址获取点击这里打开&#xff1a;OpenSpeedy下载地址 打开解压后的文件夹&#xff0c;找到【OpenSpeedy.exe】应用程序&#xff0c;右键选择【以管理员身份运行】。 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 主要特性&#xff1a; 免费开源蛮…

科技云报到:热链路革命:阿卡 CRM 的 GTM 定位突围

科技云报道原创。在企业数字化的工具箱里&#xff0c;“CRM” 一词早已不是 “全流程客户管理” 的代名词&#xff0c;而是从营销获客到客户信息沉淀&#xff0c;再到长期关系维护&#xff0c;仿佛要包揽从线索到复购的所有环节。但成立仅两年半的阿卡 CRM&#xff0c;却在实践…

什么是Graphical Abstract

什么是Graphical Abstract 现在都需要用Graphical Abstract&#xff0c;新加的好像。图形摘要&#xff08;Graphical Abstract&#xff09;是学术论文中一种以可视化方式浓缩呈现研究核心内容的图表&#xff0c;它通过简洁的图形、流程图、示意图或组合视觉元素&#xff0c;直观…

心灵笔记:正念冥想

定义&#xff1a;正念冥想&#xff08;Mindfulness Meditation&#xff09;是一种源自东方禅修、结合现代心理学的心理训练方法&#xff0c;核心是有意识地将注意力集中在当下的体验上&#xff0c;不加评判地觉察自身的 thoughts&#xff08;想法&#xff09;、feelings&#x…

微软推出革命性AI安全工具Project IRE,重塑网络安全防御新范式

面对日益复杂的网络安全威胁&#xff0c;微软近日发布了具有里程碑意义的Project IRE AI工具。这项创新性解决方案将人工智能与逆向工程技术深度融合&#xff0c;开创了自动化威胁检测的新纪元。据微软官方披露&#xff0c;该工具能够在不依赖人工干预的情况下&#xff0c;自主…