语音识别技术在人工智能中的应用

姓名:成杰     学号:21021210653    学院:电子工程学院

【嵌牛导读】

应用语音智能这项识别技术是为了使计算机可以听懂人类的语言,并执行人类的某项操作。现阶段这项技术已经成为人工智能领域的重点研究方向和实现人机语音交互的关键性技术,一直备受世界各国人工智能领域专家的重点关注。

【嵌牛鼻子】

人工智能、语音识别

【嵌牛提问】

语音识别技术的当前主要解决方法以及深度学习框架下语音识别技术的发展前景

【嵌牛正文】 

1. 人工智能简介

    人工智能(英语:Artificial Intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。该词也指出研究这样的智能系统是否能够实现,以及如何实现。人工智能的研究是高度技术性和专业的,各分支领域都是深入且各不相通的,因而涉及范围极广。

AI的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。当前有大量的工具应用了人工智能,其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学,以及基于概率论和经济学的算法等等也在逐步探索当中。 思维来源于大脑,而思维控制行为,行为需要意志去实现,而思维又是对所有数据采集的整理,相当于数据库,所以人工智能最后会演变为机器替换人类。

早期的人工智能研究人员直接模仿人类进行逐步的推理,就像是玩棋盘游戏或进行逻辑推理时人类的思考模式。到了1980和1990年代,利用概率和经济学上的概念,人工智能研究还发展了非常成功的方法处理不确定或不完整的资讯。

对于困难的问题,有可能需要大量的运算资源,也就是发生了“可能组合爆增”:当问题超过一定的规模时,电脑会需要天文数量级的存储器或是运算时间。寻找更有效的算法是优先的人工智能研究项目。

人类解决问题的模式通常是用最快捷,直观的判断,而不是有意识的,一步一步的推导,早期人工智能研究通常使用逐步推导的方式。人工智能研究已经于这种“次表征性的”解决问题方法取得进展:实体化AGENT研究强调感知运动的重要性。神经网络研究试图以模拟人类和动物的大脑结构重现这种技能。

2. 问题——语音识别技术在人工智能中的应用

应用语音智能这项识别技术是为了使计算机可以听懂人类的语言,并执行人类的某项操作。现阶段这项技术已经成为人工智能领域的重点研究方向和实现人机语音交互的关键性技术,一直备受世界各国人工智能领域专家的重点关注。现阶段各种以语音智能这项识别技术为基础的产品也被开发出来,并广泛应用于我国社会发展的各个领域,还在应用方面展现出了极大的优势,如声控电话交换和语音通信系统等。但在语音识别这项技术的实际应用过程中,还存在不少技术方面的瓶颈,怎样通过融合人工智能技术和芯片,来使语音智能识别这项技术实现更好地发展,这是本世纪内中最重要的一项研究课题之一。

3. 当前主要解决方法

      目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。

4. 各个方法分析

(1)动态时间规整算法

动态时间规整算法是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。

(2)隐马尔可夫模型(HMM)

隐马尔可夫模型是语音信号处理中的一种统计模型,是 由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

   (3)矢量量化

           矢量量化(Vector Quantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

  (4)人工神经网络(ANN)

          人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率。

 (5)支持向量机(Support vector machine)

支持向量机是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理,有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。

5. 语言智能方面识别技术的应用瓶颈

截止目前,语音智能这项识别技术有以下几个主要问题:

(1)识别语音的过程中很容易受到外界干扰。不同种类的麦克风所具备的性能存在差异性,这也会对识别的结果造成很大影响。另外,在环境噪音较强的情况下提取声音,其识别结果也会受到一定程度的干扰。这些因素的存在都会影响识别声音效果的准确性。

(2)识别声音的系统仍然不够完善。这项技术在识别不同种类语言方面会受到较大限制,一般只能识别普通话,无法识别地方方言。这项技术在汽车和手机上都有广泛使用,针对的用户群体相对比较复杂,如果用户不会说普通话或者方言口音较重,那么声音识别系统暂时还无法有效识别。这种类型的语音导致实际应用范围比较受限。

(3)无法进行准确识别和判断。通常情况下人类声音在各种不同条件下,可能会发生一定程度的变化。例如,在人类身体状况有一定变化时,也会影响语音识别系统对语音的识别效果。另外,在一些特殊情况下,这种瓶颈的存在容易导致安全隐患。

6. 总结与反思

就现阶段而言,人工智能技术在我国社会发展的各个领域中都有着广泛的应用,而且发展速度十分迅猛。在其迅猛发展的背景下,也遇到了亟待解决的技术问题,主要是因为计算机还未能实现全智能化的技术控制,这为人工智能领域识别技术的创新和发展造成了一定制约。在人工智能领域发展识别技术,要想真正实现全智能化操作,就需要进一步完善和优化其主观意识。



喜欢的朋友记得点赞、收藏、关注哦!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/907032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp实现大视频文件上传-- 阿里云oss直传方式 - app、H5、微信小程序

之前的项目文件上传比较慢,使用预签名方式上传H5正常,微信小程序和app使用axios时出现了各种报错,配置完后还是不行。所以换一种oss直传方式。 找到一个 实现了的 参考:https://blog.csdn.net/qq_44860866/article/details/129670188

【Java学习笔记】抽象类

抽象类 引入关键字:abstract 应用场景:当子类中共有的部分 / 特性可以放到抽象类中 1. 通过子类的方法重写实现不同的功能 2. 编写一个方法把共有的部分放入其中,在该方法中调用抽象方法(动态绑定机制) 3. 便可以实…

EPT(Efficient Prompt Tuning)方法,旨在解决提示调优(Prompt Tuning)中效率与准确性平衡和跨任务一致性的问题

EPT(Efficient Prompt Tuning)方法,旨在解决提示调优(Prompt Tuning)中效率与准确性平衡和跨任务一致性的问题 一、核心原理:分解提示与多空间投影 1. 提示分解:用低秩矩阵压缩长提示 传统问题: 长提示(如100个token)精度高但训练慢,短提示(如20个token)速度快但…

深入剖析Java中的伪共享:原理、检测与解决方案

在高性能Java应用的开发中,尤其是多线程环境下,开发者往往会关注锁竞争、线程调度等显性问题,但有一个隐蔽的性能杀手——伪共享(False Sharing)​,却容易被忽视。本文将通过原理分析、代码案例与实战工具&…

JMeter 教程:响应断言

目录 JMeter 教程:响应断言的简单介绍【轻松上手】 ✅ 什么是响应断言? 📌 使用场景示例 🛠️ 添加响应断言步骤 1. 选中 HTTP 请求 → 右键 → Add → Assertions → Response Assertion 2. 设置断言内容: ✅ …

11.11 TypedDict与Pydantic实战:Python高效状态管理秘籍

使用 TypedDict 和 Pydantic 管理状态 关键词:LangGraph 状态管理, TypedDict 类型化字典, Pydantic 数据模型, 状态持久化, 多轮对话设计 1. 状态管理的核心挑战 在复杂 AI Agent 系统中,状态管理需要解决三个关键问题: #mermaid-svg-0sX3763L7VP2RvuX {font-family:&quo…

ThreadLocal线程本地变量在dubbo服务使用时候遇到的一个坑

我昨天遇到一个问题,就是我springboot项目里面有一个提供代办服务审核的dubbo接口,这个接口给房源项目调用,但是碰到一个问题就是,房源项目每天凌晨5点会查询满足条件过期的数据,然后调用我这边的代办审核dubbo接口&am…

[Java实战]Spring Boot整合达梦数据库连接池配置(三十四)

[Java实战]Spring Boot整合达梦数据库连接池配置(三十四) 一、HikariCP连接池配置(默认) 1. 基础配置(application.yml) spring:datasource:driver-class-name: dm.jdbc.driver.DmDriverurl: jdbc:dm://…

【MySQL】08.视图

视图就是一个由查询到的内容定义的虚拟表。它和真实的表一样,视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表,基表的数据变化也会影响到视图。 1. 基本使用 mysql> select * from user; -------------------- | id | age | name …

4 通道1250MSPS‐16bit DAC 回放板

简介 4 通道1250MSPS‐16bit DAC 回放板 是一款4 路转换速率最高为1250MSPS 的DAC 回放板, DAC 位数16bit;板卡支持触发输出/触发输入;DAC 采样时钟源支持内部参考时 钟、外部参考时钟、外部采样时钟三种方式,可通过SPI 总线实现时…

C/C++---类型转换运算符

在C中,类型转换运算符(Type Conversion Operator)允许类对象在需要时自动转换为其他类型。这是一种特殊的成员函数,能够增强类的灵活性和交互性。 1. 基本语法 类型转换运算符的声明格式为: operator 目标类型() co…

大模型Agent

手撕 Agent 1、功能描述 设计一个 Agent,自动选择使用以下工具回答用户的问题: 查看目录下的文件基于给定的文档回答用户问题查看与分析 Excel 文件撰写文档调用 Email 客户端发邮件2、演示用例 实验中使用三个文档演示 Agent 的能力 ./data|__2023年8月-9月销售记录.xlsx…

超临界机组协调控制系统建模项目开发笔记

超临界机组协调控制系统建模项目开发笔记 项目概述 本项目基于两篇论文的方法,对超临界机组协调控制系统进行数据驱动建模。主要使用LSTMTransformer混合架构,实现对主蒸汽压力(Pst)、分离器蒸汽焓值(hm)和机组负荷(Ne)的预测。同时,通过消…

mysql安全管理

数据库管理系统用于管理数据库服务器的各种数据库资源,MYSQL是一个支持多用户的数据库管理系统,实现多用户下,各种数据库资源的安全访问控制,确保数据库资源安全访问成为了数据库管理系统的核心功能。MYSQL安全管理是指允许合法账…

QT中常用的类

Qt 是一个功能强大的跨平台框架,提供了丰富的类库来开发 GUI 和应用程序。以下是 ​​Qt 中常用的核心类​​,按模块分类整理: ​​1. GUI 和窗口管理​​ 类名用途示例场景​​QWidget​​所有 GUI 控件的基类(按钮、窗口等&…

【Redis原理篇】五大基本数据类型的底层编码方式

上文:redis底层数据结构 String底层结构 一、编码方式 1.int编码 **适用范围:**64位整数(long) **实现:**直接将数据存储在redisObject的ptr指针位置。 内存布局: 2.embstr编码 **适用条件&#xf…

自动编码器 潜在空间 Autoencoders 视频截图

【双语】Autoencoders_哔哩哔哩_bilibili 【双语】Autoencoders_哔哩哔哩_bilibili

ZLG USBCANFD python UDS刷写脚本

文章目录 概述python UDS 刷写脚本UI交互界面概述 在实际工作中,有使用周立功的UDSCANFD设备,用来收发CAN数据和UDS on CAN的诊断测试或者UDS on CAN的ECU升级。上位机使用ZCANPro,软件自带ECU刷新界面,可以编辑UDS服务,加载升级文件等,能用是能用,但是仍不能满足一些特…

线程安全问题的成因

前言 大家晚上好呀~~ 今天学习了线程不安全问题的成因。线程安全问题是十分重要的知识点,我想把我所学的与大家分享一波,希望可以帮助到有需要的人,同时加深自己对于线程安全问题的理解。 分析过程如下 结语 今天心情还不错~ 要坚持持续…

C++可变参数宏定义语法笔记

1. 基础语法 定义格式: #define MACRO_NAME(fixed_args, ...) macro_body#define LOG(fmt, ...) printf(fmt, __VA_ARGS__) LOG("Value: %d, Name: %s", 42, "Alice"); // 展开为 printf("Value: %d, Name: %s", 42, "Alice&q…