语音识别数据集

目录

Voice Activity Detection

自己采集:

1. ASR Resources(语音识别资源)

2. LM Resources(语言模型资源)

这是一个数据表:

噪声数据集:


Voice Activity Detection

自己采集:

自己分别采集有有声音的,没有声音的

多人说话的,

在语音识别(ASR)中,ASR ResourcesLM Resources 各自有不同的含义和作用。下面是它们的详细解释:

1. ASR Resources(语音识别资源)

ASRAutomatic Speech Recognition,即 自动语音识别。是将语音信号转化为文本。包括:

  • 音频数据集:用于训练ASR模型的语音数据,如包含不同口音、环境噪音、语速等的多样化音频文件。

  • 声学模型:用于将音频信号转换为音素(语音单元)或词的模型,通常通过深度神经网络(如DNN、CNN、RNN)进行训练。

  • 词典:包含音素与词汇的映射关系,帮助ASR系统从音频信号识别出正确的词。

  • 标注数据:通常包括每个音频片段与其对应的正确转录文本,这些数据用于训练和评估ASR模型。

2. LM Resources(语言模型资源)

LMLanguage Model(语言模型)的缩写。语言模型在语音识别中的作用是根据上下文来预测词语的出现概率,从而提高识别的准确性。LM Resources 指的是构建和使用语言模型所需的各种资源,主要包括:

  • 语言建模语料库:用于训练语言模型的文本数据集。它包含大量的文本,帮助模型学习语言的结构、语法和常见的词组搭配。

  • 预训练语言模型:例如3-gram、5-gram等n-gram模型或更复杂的神经网络语言模型(如RNN、LSTM、Transformer),用于捕捉词语之间的统计关系。

  • 词汇表:包含所有模型可能识别的词汇,可以是训练语言模型时的一个子集,帮助限制可能出现的词的范围。

总结

  • ASR Resources 主要关注与语音信号和音频处理相关的资源,用来从语音转化为文本。

  • LM Resources 主要关注文本数据和语言结构,用来提高语音识别的上下文理解和准确性。

这两者结合,能显著提高语音识别系统的整体效果。

这是一个数据表:

名称小时数语言数链接许可证md5sum
Bible.is53,1381,596https://live.bible.is/bible/EN1ESV/MAT/1独特的ea404eeaf2cd283b8223f63002be11f9
globalrecordings.net9,7436,171Global Recordings NetworkCC BY-NC-SA 4.03c5c0f31b0abd9fe94ddbe8b1e2eb326
VoxLingua1076,628107https://bark.phon.ioc.ee/voxlingua107/CC BY 4.05dfef33b4d091b6d399cfaf3d05f2140
Common Voice30,329120Common VoiceCC05e30a85126adf74a5fd1496e6ac8695d
MLS50,7098openslr.orgCC BY 4.0a339d0e94bdf41bba3c003756254ac4e
总计150,5476,171+

可以直接下载的:

MLS

Common Voice

噪声数据集:

https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#sample-rate-comparison

 

DatasetDuration, hoursDomain
ESC-502.7Environmental noise
AliMeeting test43Far/near meetings speech
Earnings 2139Calls
MSDWild80Noisy speech
AISHELL-4 test12.7Meetings
VoxConverse test43.5Noisy speech
Libriparty test4Noisy speech
Private noise0.5Noisy calls without speech
Private speech3.7Speech
Multi-Domain Validation17Multi

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91704.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91704.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux线程同步与互斥(上)

目录 前言 1.互斥 1.先来见一种现象(数据不一致问题) 2.如何解决上述问题 3.理解为什么数据会不一致&&认识加锁的接口 4.理解锁 5.锁的封装 前言 在前面对线程的概念和控制的学习过程中,我们知道了线程是共享地址空间的&#…

Codeforces Global Round 27

ABC 略D将每个数拆成x*2的整数次幂&#xff0c;一个直接的想法是尽量把2的整数次幂给大的数。那么所有乘上2的整数次幂的数构成的序列单调递减&#xff0c;反证法&#xff0c;如果序列中存在i j 使得a[i]<a[j]&#xff0c;那么我们不如把给a[i]乘的2的幂给a[j]乘。#include …

深入 Go 底层原理(二):Channel 的实现剖析

1. 引言"Do not communicate by sharing memory; instead, share memory by communicating." (不要通过共享内存来通信&#xff0c;而应通过通信来共享内存。) 这是 Go 语言并发设计的核心哲学。而 channel 正是实现这一哲学的核心工具。Channel 为 Goroutine 之间的…

Golang 语言的编程技巧之类型

1、介绍Golang 语言是一门静态类型的编程语言&#xff0c;我们在编写代码时&#xff0c;为了提升代码的灵活性&#xff0c;有时会使用空接口类型&#xff0c;对于空接口类型的变量&#xff0c;一般会通过类型断言判断变量的类型&#xff0c;而且可能还会遇到遇到类型转换的场景…

计数组合学7.11(RSK算法)

7.11 RSK算法 在对称函数理论中&#xff0c;有一个非凡的组合对应关系&#xff0c;称为RSK算法。&#xff08;关于缩写RSK的含义以及其他名称&#xff0c;请参阅本章末尾的注释。&#xff09;这里我们仅介绍RSK算法的最基本性质&#xff0c;从而能够给出舒尔函数一些基本性质的…

国产嵌入式调试器之光? RT-Trace 初体验!

做过嵌入式开发的工程师肯定都知道有这么个玩意儿 —— J-Trace&#xff0c;与我们日常使用的普通调试器不同点在于&#xff0c;它在基本的下载/调试代码之上还具有非常强大的代码运行跟踪能力&#xff0c;从而实现代码覆盖率的分析、指令回溯、CPU 资源监控等一系列强大的功能…

SLAM中的非线性优化-2D图优化之零空间实战(十六)

终于有时间更新实战篇了&#xff0c;本节实战几乎包含了SLAM后端的所有技巧&#xff0c;其中包括&#xff1a;舒尔补/先验Factor/鲁棒核函数/FEJ/BA优化等滑动窗口法的相关技巧&#xff0c;其中构建2D轮式里程计预积分以及绝对位姿观测的10帧滑动窗口&#xff0c;并边缘化最老帧…

知识随记-----Qt 实战教程:使用 QNetworkAccessManager 发送 HTTP POST

文章目录Qt 网络编程&#xff1a;使用 QNetworkAccessManager 实现 HTTP POST 请求概要整体架构流程技术名词解释技术细节注意事项&#xff1a;Qt 网络编程&#xff1a;使用 QNetworkAccessManager 实现 HTTP POST 请求 概要 本文介绍如何使用 Qt 框架的网络模块&#xff08;…

wordpress批量新建产品分类

1、下载安装插件&#xff1a;bulk-category-import-export2、激活插件后&#xff0c;左侧点击插件下的导入&#xff0c;选择product categories&#xff0c;点击下一步3、这里可以选择导入的分类列表文件&#xff0c;可以选择分隔符&#xff0c;CSV文件默认为‘&#xff0c;’要…

CentOS 镜像源配置与 EOL 后的应对策略

引言 本文将详细介绍如何使用 阿里云开源镜像站 配置 CentOS 的各类软件源&#xff0c;包括基础源、历史归档源&#xff08;vault&#xff09;、ARM 架构源、Stream 版本以及调试信息源&#xff08;debuginfo&#xff09;&#xff0c;并重点讲解在 CentOS 8 停止维护后&#x…

CTF实战:用Sqlmap破解表单输入型SQL注入题(输入账号密码/usernamepassword)

目录 引言 步骤1&#xff1a;用Burp Suite捕获表单请求 步骤2&#xff1a;用Sqlmap获取数据库名称 参数解释&#xff1a; 输出示例&#xff08;根据题目环境调整&#xff09;&#xff1a; 步骤3&#xff1a;获取目标数据库中的表名 参数解释&#xff1a; 输出示例&#…

质数时间(二分查找)

题目描述如果把一年之中的某个时间写作 a 月 b 日 c 时 d 分 e 秒的形式&#xff0c;当这五个数都为质数时&#xff0c;我们把这样的时间叫做质数时间&#xff0c;现已知起始时刻是 2022 年的 a 月 b 日 c 时 d 分 e 秒&#xff0c;终止时刻是 2022 年的 u 月 v 日 w 时 x 分 y…

Python训练Day29

浙大疏锦行 类的装饰器装饰器思想的进一步理解&#xff1a;外部修改、动态类方法的定义&#xff1a;内部定义和外部定义

新手DBA实战指南:如何使用gh-ost实现MySQL无锁表结构变更

新手DBA实战指南:如何使用gh-ost实现MySQL无锁表结构变更 作为DBA,大表结构变更(DDL)一直是令人头疼的问题。传统的ALTER TABLE操作会锁表,严重影响业务连续性;而常见的pt-online-schema-change工具虽然能实现在线变更,但依赖触发器机制,在高并发场景下性能表现不佳。本…

OSPF综合

一、实验拓扑二、实验需求1、R4为ISP&#xff0c;其上只配置IP地址&#xff1b;R4与其他所直连设备间均使用公有IP&#xff1b; 2、R3-R5、R6、R7为MGRE环境&#xff0c;R3为中心站点&#xff1b; 3、整个OSPF环境IP基于172.16.0.0/16划分&#xff1b;除了R12有两个环回&#x…

技术面试知识点详解 - 从电路到编程的全栈面经

技术面试知识点详解 - 从电路到编程的全栈面经 目录 模拟电路基础数字电路原理电源设计相关编程语言基础数据库与并发网络协议基础算法与数据结构 模拟电路基础 1. 放大电路类型判断 这是模拟电路面试的经典题目&#xff0c;通过电压放大倍数判断放大电路类型&#xff1a; …

LangGraph认知篇-Command函数

Command简述 在 LangGraph 中&#xff0c;Command 是一个极具实用性的功能&#xff0c;它能够将控制流&#xff08;边&#xff09;和状态更新&#xff08;节点&#xff09;巧妙地结合起来。这意味着开发者可以在同一个节点中&#xff0c;既执行状态更新操作&#xff0c;又决定下…

【目标检测】小样本度量学习

小样本度量学习&#xff08;Few-Shot Metric Learning&#xff09;通常用于分类任务​&#xff08;如图像分类&#xff09;&#xff0c;但它也可以与目标检测&#xff08;Object Detection&#xff09;结合&#xff0c;解决小样本目标检测&#xff08;Few-Shot Object Detectio…

cmd怎么取消关机命令

在 Windows 的命令提示符&#xff08;CMD&#xff09;中取消已计划的关机操作&#xff0c;可以通过 shutdown 命令的 ​**-a**​ 参数实现。以下是具体步骤&#xff1a;​操作方法​​打开 CMD​按下 Win R 组合键&#xff0c;输入 cmd 并回车&#xff0c;打开命令提示符窗口。…

网易云音乐硬刚腾讯系!起诉SM娱乐滥用市场支配地位

企查查APP显示&#xff0c;近日&#xff0c;法院公开杭州乐读科技有限公司、杭州网易云音乐科技有限公司起诉SM ENTERTAINMENT CO. 、卡斯梦&#xff08;上海&#xff09;文化传播有限公司等开庭信息&#xff0c;案由涉及滥用市场支配地位纠纷。公告显示&#xff0c;该案件计划…