语音识别技术在人工智能中的应用

姓名：成杰学号：21021210653 学院：电子工程学院

【嵌牛导读】

应用语音智能这项识别技术是为了使计算机可以听懂人类的语言，并执行人类的某项操作。现阶段这项技术已经成为人工智能领域的重点研究方向和实现人机语音交互的关键性技术，一直备受世界各国人工智能领域专家的重点关注。

【嵌牛鼻子】

人工智能、语音识别

【嵌牛提问】

语音识别技术的当前主要解决方法以及深度学习框架下语音识别技术的发展前景

【嵌牛正文】

1. 人工智能简介

人工智能（英语：Artificial Intelligence，缩写为AI）亦称智械、机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。该词也指出研究这样的智能系统是否能够实现，以及如何实现。人工智能的研究是高度技术性和专业的，各分支领域都是深入且各不相通的，因而涉及范围极广。

AI的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。当前有大量的工具应用了人工智能，其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学，以及基于概率论和经济学的算法等等也在逐步探索当中。思维来源于大脑，而思维控制行为，行为需要意志去实现，而思维又是对所有数据采集的整理，相当于数据库，所以人工智能最后会演变为机器替换人类。

早期的人工智能研究人员直接模仿人类进行逐步的推理，就像是玩棋盘游戏或进行逻辑推理时人类的思考模式。到了1980和1990年代，利用概率和经济学上的概念，人工智能研究还发展了非常成功的方法处理不确定或不完整的资讯。

对于困难的问题，有可能需要大量的运算资源，也就是发生了“可能组合爆增”：当问题超过一定的规模时，电脑会需要天文数量级的存储器或是运算时间。寻找更有效的算法是优先的人工智能研究项目。

人类解决问题的模式通常是用最快捷，直观的判断，而不是有意识的，一步一步的推导，早期人工智能研究通常使用逐步推导的方式。人工智能研究已经于这种“次表征性的”解决问题方法取得进展：实体化AGENT研究强调感知运动的重要性。神经网络研究试图以模拟人类和动物的大脑结构重现这种技能。

2. 问题——语音识别技术在人工智能中的应用

应用语音智能这项识别技术是为了使计算机可以听懂人类的语言，并执行人类的某项操作。现阶段这项技术已经成为人工智能领域的重点研究方向和实现人机语音交互的关键性技术，一直备受世界各国人工智能领域专家的重点关注。现阶段各种以语音智能这项识别技术为基础的产品也被开发出来，并广泛应用于我国社会发展的各个领域，还在应用方面展现出了极大的优势，如声控电话交换和语音通信系统等。但在语音识别这项技术的实际应用过程中，还存在不少技术方面的瓶颈，怎样通过融合人工智能技术和芯片，来使语音智能识别这项技术实现更好地发展，这是本世纪内中最重要的一项研究课题之一。

3. 当前主要解决方法

目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机(SVM)等方法。

4. 各个方法分析

（1）动态时间规整算法

动态时间规整算法是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。

（2）隐马尔可夫模型（HMM）

隐马尔可夫模型是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。

（3）矢量量化

矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

（4）人工神经网络（ANN）

人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型，它与HMM正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常MLP分类器只能解决静态模式分类问题，并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展，其识别率已经接近隐含马尔可夫模型的识别系统，进一步提高了语音识别的鲁棒性和准确率。

（5）支持向量机（Support vector machine）

支持向量机是应用统计学理论的一种新的学习机模型，采用结构风险最小化原理，有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力，在解决小样本、非线性及高维模式识别方面有许多优越的性能，已经被广泛地应用到模式识别领域。

5. 语言智能方面识别技术的应用瓶颈

截止目前，语音智能这项识别技术有以下几个主要问题：

（1）识别语音的过程中很容易受到外界干扰。不同种类的麦克风所具备的性能存在差异性，这也会对识别的结果造成很大影响。另外，在环境噪音较强的情况下提取声音，其识别结果也会受到一定程度的干扰。这些因素的存在都会影响识别声音效果的准确性。

（2）识别声音的系统仍然不够完善。这项技术在识别不同种类语言方面会受到较大限制，一般只能识别普通话，无法识别地方方言。这项技术在汽车和手机上都有广泛使用，针对的用户群体相对比较复杂，如果用户不会说普通话或者方言口音较重，那么声音识别系统暂时还无法有效识别。这种类型的语音导致实际应用范围比较受限。

（3）无法进行准确识别和判断。通常情况下人类声音在各种不同条件下，可能会发生一定程度的变化。例如，在人类身体状况有一定变化时，也会影响语音识别系统对语音的识别效果。另外，在一些特殊情况下，这种瓶颈的存在容易导致安全隐患。

6. 总结与反思

就现阶段而言，人工智能技术在我国社会发展的各个领域中都有着广泛的应用，而且发展速度十分迅猛。在其迅猛发展的背景下，也遇到了亟待解决的技术问题，主要是因为计算机还未能实现全智能化的技术控制，这为人工智能领域识别技术的创新和发展造成了一定制约。在人工智能领域发展识别技术，要想真正实现全智能化操作，就需要进一步完善和优化其主观意识。