目录
Voice Activity Detection
自己采集:
1. ASR Resources(语音识别资源)
2. LM Resources(语言模型资源)
这是一个数据表:
噪声数据集:
Voice Activity Detection
自己采集:
自己分别采集有有声音的,没有声音的
多人说话的,
在语音识别(ASR)中,ASR Resources 和 LM Resources 各自有不同的含义和作用。下面是它们的详细解释:
1. ASR Resources(语音识别资源)
ASR 是 Automatic Speech Recognition,即 自动语音识别。是将语音信号转化为文本。包括:
-
音频数据集:用于训练ASR模型的语音数据,如包含不同口音、环境噪音、语速等的多样化音频文件。
-
声学模型:用于将音频信号转换为音素(语音单元)或词的模型,通常通过深度神经网络(如DNN、CNN、RNN)进行训练。
-
词典:包含音素与词汇的映射关系,帮助ASR系统从音频信号识别出正确的词。
-
标注数据:通常包括每个音频片段与其对应的正确转录文本,这些数据用于训练和评估ASR模型。
2. LM Resources(语言模型资源)
LM 是 Language Model(语言模型)的缩写。语言模型在语音识别中的作用是根据上下文来预测词语的出现概率,从而提高识别的准确性。LM Resources 指的是构建和使用语言模型所需的各种资源,主要包括:
-
语言建模语料库:用于训练语言模型的文本数据集。它包含大量的文本,帮助模型学习语言的结构、语法和常见的词组搭配。
-
预训练语言模型:例如3-gram、5-gram等n-gram模型或更复杂的神经网络语言模型(如RNN、LSTM、Transformer),用于捕捉词语之间的统计关系。
-
词汇表:包含所有模型可能识别的词汇,可以是训练语言模型时的一个子集,帮助限制可能出现的词的范围。
总结:
-
ASR Resources 主要关注与语音信号和音频处理相关的资源,用来从语音转化为文本。
-
LM Resources 主要关注文本数据和语言结构,用来提高语音识别的上下文理解和准确性。
这两者结合,能显著提高语音识别系统的整体效果。
这是一个数据表:
名称 | 小时数 | 语言数 | 链接 | 许可证 | md5sum |
---|---|---|---|---|---|
Bible.is | 53,138 | 1,596 | https://live.bible.is/bible/EN1ESV/MAT/1 | 独特的 | ea404eeaf2cd283b8223f63002be11f9 |
globalrecordings.net | 9,743 | 6,171 | Global Recordings Network | CC BY-NC-SA 4.0 | 3c5c0f31b0abd9fe94ddbe8b1e2eb326 |
VoxLingua107 | 6,628 | 107 | https://bark.phon.ioc.ee/voxlingua107/ | CC BY 4.0 | 5dfef33b4d091b6d399cfaf3d05f2140 |
Common Voice | 30,329 | 120 | Common Voice | CC0 | 5e30a85126adf74a5fd1496e6ac8695d |
MLS | 50,709 | 8 | openslr.org | CC BY 4.0 | a339d0e94bdf41bba3c003756254ac4e |
总计 | 150,547 | 6,171+ |
可以直接下载的:
MLS
Common Voice
噪声数据集:
https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#sample-rate-comparison
Dataset | Duration, hours | Domain |
---|---|---|
ESC-50 | 2.7 | Environmental noise |
AliMeeting test | 43 | Far/near meetings speech |
Earnings 21 | 39 | Calls |
MSDWild | 80 | Noisy speech |
AISHELL-4 test | 12.7 | Meetings |
VoxConverse test | 43.5 | Noisy speech |
Libriparty test | 4 | Noisy speech |
Private noise | 0.5 | Noisy calls without speech |
Private speech | 3.7 | Speech |
Multi-Domain Validation | 17 | Multi |