AISHELL-5 全球首套智能驾舱中文语音交互数据集开源

随着汽车成为人们日常生活中不可或缺的一部分,而驾驶舱中传统的触摸交互方式容易分散驾驶员的注意力,存在安全风险,因此,车内基于语音的交互方式得到重视。与通常家庭或会议场景中的语音识别系统不同,驾驶场景中的系统面临更加独特的挑战,缺乏大规模的公共真实车内数据一直是该领域发展的主要障碍。AISHELL-5是首个开源的真实车载多通道、多说话人中文自动语音识别(ASR)高质量数据集。AISHELL-5的开源加速了智能驾舱内语音交互的相关技术研究,并且希尔贝壳联合西工大音频语音与语言处理研究组(ASLP@NPU)理想汽车发布的AISHELL-5论文成功入INTERSPEECH2025国际会议以下是AISHELL-5数据集的相关介绍。

图片

数据地址:https://www.aishelltech.com/AISHELL_5

图片

图片

  • 论文地址:https://arxiv.org/pdf/2505.23036

  • GitHub:https://github.com/DaiYvhang/AISHELL-5

数据说明

AISHELL-5 共计893.7小时,单通道145.25小时。邀请165名录音人,在真实车内,涉及60+车载场景下录制。录音内容包含对话(706.59H)和噪声(187.11H)两类。拾音点位共计5个:近讲为头戴麦克风(采样率:16kHz,16bit,数据量:215.63H),远讲为驾舱内麦克风(采样率:16kHz,16bit,数据量:490.96H,拾音位:4个音位)。噪声采集由驾舱内麦克风(采样率:16kHz,16bit,数据量:187.11H,拾音位:4个音位)录制。

录制场景示意图:

图片

录制环境设计信息:

图片

实验数据分配如下:

图片

    

试验说明

我们提供了基于该数据集构建的一套开源基线系统。该系统包括一个语音前端模型,利用语音源分离技术从远场信号中提取出每位说话人的清晰语音,以及一个语音识别模块,用于准确转写每位说话人的语音内容。

图片

系统实验结果:

图片

实验结果展示了多种主流ASR 模型在 AISHELL-5 数据集上面临的挑战。AISHELL-5 数据的开源能够推动智驾领域复杂驾舱场景下的语音技术研究

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openstack之neutron(一)

NFV基础 neutron是对二层物理网络的抽象与管理,实例的网络功能由连接到vSwitch的端口上的vNIC共同实现,再通过物理服务器的物理网卡访问外部的物理网络。 NFV实现 网卡虚拟化:tap、tun、veth; 交换机虚拟化:linuxbri…

【Java】Arrays.sort:TimSort

一,概述 书接前文【Java】Arrays.sort:DualPivotQuicksort-CSDN博客 Arrays.sort对基本数据类型使用了双轴快速排序,但是对Object[]类型,则使用了TimSort,TimSort是稳定的排序,它整合了插入排序归并排序,…

一个n8n构建的能和LLM对话的Agent

一个n8n构建的能和LLM对话的Agent 1.OLLAMA1.1.下载和安装1.2.设置环境变量1.3.重启ollama1.4.测试1.5.拉取模型2.n8n部署2.1. 镜像拉取和启动2.2.注册和登录2.3.新建一个工作流3.说在后面的话环境搭建说明: windows(RTX 5090)+VM CENTOS 采用本地化的ollama运行LLM n8n是一…

升级 Ubuntu Linux 内核的几种不同方法

方法 1 - 使用 dpkg 升级 Linux 内核(手动方式) 这个方法可以帮助你从 kernel.ubuntu.com 网站手动下载可用的最新 Linux 内核。如果你打算安装最新版(而不是稳定版或者正式发布版),那这种方法…

Robots.txt 文件

什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…

Linux 内核 Slab 分配器核心组件详解

Slab 分配器是 Linux 内核中用于高效管理内存的机制,其核心目标是通过对象缓存减少内存碎片和分配/释放开销。以下详细解析其核心组件及其协作关系: 一、Slab 系统的核心组件 组件 描述 作用场景 Slab 描述符 每个 Slab 的管理结构(如 struc…

Oracle 的AHF (Automatic Health Framework) 工具

Oracle 的AHF (Automatic Health Framework) 工具 Oracle AHF (Automatic Health Framework) 是 Oracle 官方提供的诊断工具集合,用于自动收集、分析和诊断 Oracle 数据库及集群环境的健康状态和问题。 一 AHF 核心功能概述 1. 主要组件 TFA (Trace File Analyz…

华为服务器obsutil使用方法

本文不生产技术,只做技术的搬运工!!! 前言 最近在使用华为云服务器进行模型训练,发现其上传下载文件都极慢,询问华为官方人员是否限速,对方推荐使用obsutil作为中转服务进行下载,在…

【大模型训练】中短序列attention 和MOE层并行方式(二)

我们考虑一个典型的Transformer模型结构,在多层堆叠中,其中包含Attention层和MoE层(FeedForward层被替换为MoE层)。在模型最后是LM Head(语言模型头),通常是一个全连接层,将隐层向量…

2025-06-09(批量智能裁剪视频尺寸并延长视频时长)

import os import subprocess import random import json # 配置参数 TARGET_WIDTH 500 TARGET_HEIGHT 600 TARGET_DURATION 180 # 目标时长(秒) OUTPUT_DIR "processed_videos" MIRROR_MODES ["none", "horizontal&quo…

CKA考试知识点分享(9)---gateway api

CKA 版本:1.32 第九套题是涉及gateway api相关。 注意:本文不是题目,只是为了学习相关知识点做的实验。仅供参考 实验目的 创建一个gateway api,来实现后端镜像的外部访问。 gateway api 通过nginx实现 实验开始 安装nginx ga…

Kafka 消息模式实战:从简单队列到流处理(一)

一、Kafka 简介 ** Kafka 是一种分布式的、基于发布 / 订阅的消息系统,由 LinkedIn 公司开发,并于 2011 年开源,后来成为 Apache 基金会的顶级项目。它最初的设计目标是处理 LinkedIn 公司的海量数据,如用户活动跟踪、消息传递和…

Linux中使用yum安装MYSQL

1、关系型数据库 MySQL 使用 yum 安装mysql 1、检查是否已经安装 Mysql rpm -qa | grep mysql如果安装了 就进行卸载 rpm -e mysql-community-libs-5.7.44-1.el7.x86_64 rpm -e mysql57-community-release-el7-11.noarch rpm -e mysql-community-common-5.7.44-1.el7.x86_64…

Linux 文件系统与 I/O 编程核心原理及实践笔记

文章目录 一、理解文件1.1 狭义理解1.2 广义理解1.3 文件操作的归类认识1.4 系统角度:进程与文件的交互1.5 实践示例 二、回顾 C 文件接口2.1 hello.c 打开文件2.2 hello.c 写文件2.3 hello.c 读文件2.4 输出信息到显示器的几种方法2.5 stdin & stdout & st…

1.9 Express

Express 是一个基于 Node.js 平台的轻量级、灵活的 Web 应用框架,它为构建 Web 应用和 API 提供了一系列强大的功能。 核心特性 中间件支持:Express 使用中间件(middleware)函数来处理 HTTP 请求和响应。中间件可以访问请求对象&…

面壁智能MiniCPM4.0技术架构与应用场景

📋 目录 1. 引言:端侧智能新时代2. MiniCPM4.0概述3. 核心技术架构 3.1 高效双频换挡机制3.2 稀疏注意力机制3.3 系统级优化创新 4. 技术突破与性能表现5. 应用场景深度解析 5.1 智能手机应用5.2 智能家居场景5.3 汽车智能化5.4 其他端侧应用 6. 行业影…

RabbitMQ路由核心解密:从Exchange到RoutingKey的深度实践与避坑指南

🔍 RabbitMQ路由核心解密:从Exchange到RoutingKey的深度实践与避坑指南 “消息去哪了?”——这是每位RabbitMQ使用者在调试时最常发出的灵魂拷问。 理解Exchange与RoutingKey的协作机制,正是解开路由谜题的关键钥匙。 一、Exchang…

Spring MVC完全指南 - 从入门到精通

目录 1. Spring MVC简介 2. MVC架构模式 3. Spring MVC核心组件 4. 请求处理流程 5. 控制器详解 6. 请求映射 7. 参数绑定 8. 数据验证 9. 视图解析器 10. 模型数据处理 11. 异常处理 12. 拦截器 13. 文件上传下载 14. RESTful API 15. 配置详解 总结 1. Sprin…

实战使用docker compose 搭建 Redis 主从复制集群

文章目录 前言技术积累1、Redis 主从复制机制2、Docker Compose 编排3、 Redis 配置文件定制4、 验证主从状态5、 自动化部署与维护 环境准备实战演示创建redis目录及配置1、创建redis目录2、创建redis配置文件 启动redis集群服务1、创建docker-compose编排文件2、编排docker-c…

【学习笔记】RTSP-Ovnif-GB28181

【学习笔记】RTSP-Ovnif-GB28181 一、RTSP_RTP_RTCP RTSP(Real Time Streaming Protocol),RFC2326,实时流传输协议,是TCP/IP协议体系中的一个应用层协议。 RTP协议详细说明了在互联网上传递音频和视频的标准数据包格…