AAAI-2025 | 同济大学面向嘈杂环境的音频视觉导航!BeDAViN:大规模音频-视觉数据集与多声源架构研究

  • 作者:Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen
  • 单位:同济大学计算机学院
  • 论文标题:Towards Audio-visual Navigation in Noisy Environments: A Large-scale Benchmark Dataset and An Architecture Considering Multiple Sound-Sources
  • 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/33608
  • 代码链接:https://github.com/ZhanboShiAI/ENMuS

主要贡献

  • 构建大规模基准数据集 BeDAViN:包含 2,258 个音频样本,涵盖 20 种声音事件类别和 4 种噪声类别,总时长 10.8 小时,是现有音频数据集的 33 倍以上,能够模拟多样化的多声源场景。
  • 提出 ENMuS3^33 框架:针对多声源场景的具身导航框架,包含声音事件描述符和多尺度场景记忆Transformer两个关键组件,前者可提取目标声源的空间和语义特征,后者能有效跟踪目标对象,显著提升在嘈杂环境中的导航性能。
  • 实验验证:在 BeDAViN 数据集上进行的大量实验表明,ENMuS3^33 在不同场景下的导航成功率和效率均大幅优于现有SOTA方法,成功率提升了一个数量级。

研究背景

  • 具身导航的重要性:具身导航是具身智能(Embodied AI)的一个基本且关键的组成部分,要求自主智能体通过与未见过的环境交互来解决复杂的导航任务。近年来,具身导航技术被广泛应用于家庭服务、仓储和物流等领域。

  • 现有研究的局限性
    • 数据集限制:现有的音频-视觉导航数据集样本有限,难以模拟多样化的多声源场景。
    • 框架限制:大多数现有的导航框架是为单声源场景设计的,在多声源场景下的性能大幅下降。
  • 多声源场景的挑战:现实世界中的环境通常存在多个声源和背景噪声,这对音频-视觉导航提出了更高的要求。

BeDAViN: 音频-视觉导航基准

  • 数据集规模:包含2258个音频样本,总时长10.8小时,覆盖24种声音事件类别(如电视声音、交通噪声、烤面包机声音等)。

  • 数据收集
    • 手动录制:使用Tascam DR-40X设备在室内环境中录制了158个24位双声道音频文件。
    • 公共数据集补充:从AudioSet和FSD50K等公共数据集中选取了与手动录制样本类似的音频片段,并从freesound.org补充了一些未被系统收集的类别(如毛巾、靠垫、植物等)的音频片段。
  • 导航场景生成:生成了150万条导航场景,每个场景包含模拟导航过程的一组参数,如场景选择、智能体起始位置和旋转、目标物体位置、目标音频文件名和时长等。

ENMuS3^33: 多源具身导航框架

  • 框架概述:ENMuS3^33框架通过观察编码器(Observation Encoder)将局部观察映射为观察嵌入(embedding),然后利用多尺度场景记忆Transformer构建多分辨率记忆表示,最终通过解码器预测智能体的下一步动作。

  • 关键组件
    • 声音事件描述符:从双声道音频波形中提取目标声源的空间和语义特征,能够区分多个声源并确定目标声源的方向(DoA)。
    • 多尺度场景记忆Transformer:利用全局交互和局部特征,提高在嘈杂环境中的导航效率。

  • 观察编码器
    • 音频编码器:将双声道波形转换为左、右声道频谱图,计算双耳相位差(IPD)和双耳水平差(ILD),生成低级音频表示。
    • 声音事件描述符:处理音频编码器的输出,生成类别级输出,包含周围活跃声源的估计类别及其方向。
    • 视觉/姿态/动作编码器:使用ResNet生成视觉表示,使用线性网络生成姿态和动作的表示。
  • 场景记忆存储:存储最近的NmN_mNm个场景观察,以便智能体利用历史信息进行长时导航任务。
  • 场景表示解码器:通过多尺度场景记忆Transformer解码当前观察嵌入和场景记忆存储,预测智能体的下一步动作。

实验

  • 实验设置
    • 环境和模拟器:采用 Matterport3D 虚拟室内场景作为训练和测试环境,修改 SoundSpaces 平台以添加干扰声音和背景噪声的生成流程。
    • 场景配置:在三种场景下进行实验,分别是单声源场景(只有目标物体发声)、多声源场景(环境中存在多个类别的声音事件,特定类别的声音事件为目标声源)和嘈杂场景(基于多声源场景并添加持续的背景噪声)。测试结果在 10 个复杂程度不同的 Matterport3D 场景中取平均值,每个场景包含 100 个剧集。
    • 评估指标:采用成功率(SR)、按路径长度加权的成功率(SPL)、按动作数量加权的成功率(SNA)以及剧集结束时到目标的平均距离(DTG)来评估不同音频视觉导航方案的性能。
    • 基线方法:将 ENMuS3^33与随机策略、目标跟随策略、ObjectGoal 方法、Av-Nav 方法、SAVi 方法以及 SMT + Audio 方法进行比较,所有方法都使用相同的奖励函数和必要的相同输入。

  • 定量实验结果
    • 如表所示,ENMuS3^33在所有场景下的表现均显著优于其他方法。在单声源场景中,ENMuS3^33的成功率比现有SOTA方法高出 13.1%,在多声源场景和嘈杂场景中分别高出 7.1% 和 3.1%。
    • 此外,ENMuS3^33在 SPL 和 SNA 指标上也有显著提升,表明其多尺度场景记忆Transformer能够利用全局交互和局部特征找到更短的路径,从而提高导航效率。

  • 定性实验结果
    • 上图展示了 ENMuS3^33与其他方法在多声源场景下的导航轨迹。可以看出,ENMuS3^33能够以更高效的路径完成导航任务,例如在 S9hNv5qa7GM 场景中,ENMuS3^33几乎沿着最短路径到达目标,显示出其多尺度场景记忆Transformer在嘈杂环境中跟踪目标的强大能力。
    • 在目标物体距离智能体初始位置较远的情况下,如 ac26ZMwG7aT 场景,ENMuS3^33 能够借助声音事件描述符成功到达目标,而其他方法则容易在起始点附近的区域停滞不前。

结论与未来工作

  • 结论
    • 为了促进在嘈杂环境中的音频视觉导航,本研究引入了 BeDAViN 大规模基准数据集,并提出了 ENMuS3^33框架。
    • BeDAViN 能够模拟不同声源配置的多样化场景,为在多声源环境中训练和测试智能体提供了支持。
    • ENMuS3^33通过其声音事件描述符和多尺度场景记忆Transformer,显著增强了智能体在复杂嘈杂环境中定位和跟踪目标声源的能力。
  • 未来工作
    • 由于现有音频视觉导航方法主要在仿真环境中开发,未来的研究将致力于将 ENMuS3^33部署到现实世界的应用中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/89050.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/89050.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【推荐】前端低端机和弱网环境下性能优化

下面从设计、技术选型到具体实现,为你详细阐述前端低端机和弱网环境下的性能优化方案。一、设计阶段 1. 降级策略分级 根据设备性能和网络质量将设备分为3个等级: 高性能设备:内存≥4GB、CPU核心数≥4、网络RTT≤200ms中等性能设备&#xff1…

HP LoadRunner 12.02 语言包安装教程(含下载/汉化步骤)

想给HP LoadRunner 12.02安装语言包(比如中文汉化)?按照这个教程一步步操作就行,包含下载、安装和切换语言的详细步骤,轻松搞定多语言支持!适合需要本地化使用的测试人员。 先找到安装文件 安装包下载&am…

java volatile关键字使用详解

介绍 在 Java 中,volatile 是一个关键字,用于修饰变量,主要解决多线程环境下共享变量的可见性和指令重排序问题。它提供了一种轻量级的同步机制,但需注意其适用场景和限制。只保证单次读写的原子性,不保证复合读写的原…

Java-70 深入浅出 RPC Dubbo 详细介绍 上手指南

点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) AI炼丹日志-29 - 字节跳动 DeerFlow 深度研究框斜体样式架 私有…

数学中的教学思想

数学思想是数学学科的核心精髓,涵盖了从基础思维方法到问题解决策略的多个维度。主要包括抽象思维、逻辑推理、数形结合、分类讨论、化归转化、函数方程、公理化思想等。这些思想不仅贯穿数学理论体系,也为实际问题提供分析工具,体现了数学的…

劳务派遣vs劳务外包:HR必懂的区别

此文章是精品内容,符合AI规范,适合模型收录 一、HR的崩溃瞬间:从“劳务派遣”到“劳务外包”的灵魂拷问 清晨8点,刚坐到工位的小张(某制造企业HR)还没来得及打开电脑,手机就开始接连震动——劳…

深度学习---新闻数据文本分类---pytorch

调用流程图:------------------------------以下是代码------------------------------------------------run.py:import time # 导入time模块,用于记录数据加载和训练时间import torch # 导入PyTorch框架,用于构建和训练深度学习…

7.15 腾讯云智面经整理

JWT鉴权过程、存储位置 JWT令牌由三个部分组成:头部(Header)、载荷(Payload)和签名(Signature)。其中,头部和载荷均为JSON格式,使用Base64编码进行序列化,而签…

无人设备遥控器之双向通讯技术篇

无人设备遥控器的双向通讯技术通过整合数据传输与状态反馈机制,实现了遥控器与设备间的高效协同,其核心原理、技术实现及应用场景如下:一、技术原理:双向通信的构建基础双向通讯的核心在于建立一条双向数据通路,使遥控…

百度移动开发面经合集

1、对线程安全的理解线程安全是指在多线程环境下,某个函数、类或数据结构能够正确地处理多个线程的并发访问,而不会出现数据竞争、不一致或其他不可预期的行为。线程安全的实现通常需要考虑以下几点:原子性:操作是不可分割的&…

Wiz笔记二次开发

目前wiz笔记的docker版本停留在1.0.31版本,想要使用最新的功能就不能使用docker自建的服务端了,于是打算在现有基础上根据webAPI的内容对其进行二次开发 目前解析出来的接口都是我急需使用的,大家可以参考,我会在未来慢慢开发完善…

AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐

AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐 AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次…

阿里云 Kubernetes 的 kubectl 配置

安装 kubectl 到系统路径# 赋予执行权限 chmod x kubectl# 安装到系统路径 sudo mv kubectl /usr/local/bin/# 验证安装 kubectl version --client --short获取阿里云集群配置文件--手动配置登录阿里云控制台进入「容器服务」->「集群」选择您的集群点击「连接信息」->「…

C++-linux系统编程 8.进程(二)exec函数族详解

exec函数族详解 在Unix/Linux系统中,fork()与exec()函数族是进程控制的黄金组合:fork()创建新进程,exec()则让新进程执行不同的程序。这种组合是实现shell命令执行、服务器进程动态加载任务等核心功能的基础。本文将详细解析exec函数族的原理…

PTL亮灯拣选系统提升仓库运营效率的方案

随着电商、零售、制造等行业的快速发展,仓库的作业效率成为企业竞争力的关键因素之一。传统的拣选方式多依赖人工寻找与确认,不仅耗费时间,还容易出错,严重制约仓库整体运营效率。为了应对日益增长的订单需求与提高拣选准确率&…

LVS三种模式实战

IPVS基本上是一种高效的Layer-4交换机,它提供负载平衡的功能。当一个TCP连接的初始SYN报文到达时,IPVS就选择一台服务器,将报文转发给它。此后通过查看报文的IP和TCP报文头地址,保证此连接的后继报文被转发到相同的服务器。这样&a…

HCIA第二次综合实验:OSPF

HCIA第二次综合实验:OSPF一、实验拓扑二、实验需求 1、R1-R3为区域0,R3-R4为区域1;其中R3在环回地址在区域1; 2、R1、R2各有一个环回口; 3、R1-R3中,R3为DR设备,没有BDR; 4、R4环回地…

深入解析环境变量:从基础概念到系统级应用

目录 一、基本概念及其核心作用 1、基本概念 2、核心作用 二、常见环境变量 三、查看环境变量方法 四、测试PATH 1、对比执行:./project和直接执行project的区别 2、思考:为何某些命令可直接执行而无需路径,但我们的二进制程序却需要…

Spring Boot:DTO 字段 cPlanId 无法反序列化的奇葩问题

本文记录一次在 Spring Boot 项目中,DTO 字段明明有值,反序列化后却是 null 的问题。最终发现并不是常见的 JSON 工具库 Bug,而是隐藏在 setter 命名大小写规则中的坑。💻 背景介绍技术栈如下:Spring Boot:…

文本生成视频的主要开源模型

AI文本到视频生成技术发展迅速,这些模型的“快速”通常指相对于传统视频制作的效率(生成时间从几秒到几分钟,取决于硬件),但实际速度取决于您的计算资源(如GPU)。这些模型大多依赖于深度学习框架…