音转文模型对比FunASR与Faster_whisper

FunASR简介

        FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。FunASR基于提供预训练模型和易于使用的接口,使用户快速部署语音识别服务,满足不同场景的应用需求。2024年10月16日,FunASR新增支持Whisper-large-v3-turbo模型,进一步扩展在语音识别领域的应用能力。

  • 语音识别(ASR):将语音信号转换为文本信息。
  • 语音活动检测(VAD):识别语音信号中的有效语音部分,过滤掉静音或背景噪音。
  • 标点恢复:在语音识别结果中自动添加标点符号,提高文本的可读性。
  • 说话人验证:识别并验证说话人的身份。
  • 说话人分离:在多人对话中区分不同说话人的声音。
  • 多说话人ASR:处理多人同时说话的场景,识别和区分每个人的语音。

FunASR的技术原理

  • 自然语言处理(NLP):理解和生成自然语言,实现流畅对话。
  • 语音识别和合成:将用户的语音转换为文本,合成虚拟角色的语音输出。
  • 语音端点检测(VAD):基于FSMN-VAD模型,准确检测语音的起始和结束,提高语音识别的准确性。
  • 标点预测:集成标点预测模型,能在转录文本中自动添加标点符号,使转录结果更加符合阅读习惯,提升文本的可读性。

FunASR的项目地址

  • 项目官网:funasr.com
  • GitHub仓库:GitHub - modelscope/FunASR: A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

代码实现

在项目中主要使用的是speech_seaco_paraformer这个音转文模型。

import json
import time
from funasr import AutoModel
# 计时开始
start_time = time.time()
# 初始化模型 - 使用支持热词的新模型
model = AutoModel(# model="iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn",model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",spk_model="iic/speech_campplus_sv_zh-cn_16k-common",vad_kwargs={"max_single_segment_time": 1000}
)
# 生成语音识别结果
res = model.generate(input="音频文件.wav",merge_vad=False,  
)# 提取所需字段
simplified_result = []
durations = []  # 用于存储每段的时间长度
print('总音频',res[0]['text'])#以下代码可以获取生成时间,需要输出时间的情况。
#for i,segment in enumerate(res):
#                    segmentText = res[0]['text']
#                    # print(self.device_clerk,i,"[%.2fs -> %.2fs] %s" % #(segment.start, segment.end, segmentText))
#                    print(f"{self.device_clerk} {i} [{segment.get('start', 0):.2f}s #-> {segment.get('end', 0):.2f}s] {segmentText}")

Faster_whisper

faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。

代码实现

具体的调用代码:

from faster_whisper import WhisperModelmodel = WhisperModel(model_path, device="cuda", device_index=[cuda_index], compute_type="float16")segments, info = self.model.transcribe(audio_file, language="zh",vad_filter=True) for i,segment in enumerate(res):segmentText = res[0]['text']print(self.device_clerk,i,"[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segmentText))

结论

模型经过对比

FunASR的速度要比Faster_whisper要快,并且FunASR是中文模型,使用的是中文数据进行训练,并且支持添加标点符号模型、语句中断模型等。

如果你需要中文音转文,那么FunASR的speech_seaco_paraformer是优先考虑模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/95898.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/95898.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp阿里云验证码使用

在 UniApp 中使用阿里云验证码插件(aliyun-captcha)需要完成微信小程序端的插件配置和项目内的组件使用两个主要步骤,以下是详细流程: 一、微信公众平台配置插件(必须) 获取插件 AppID 阿里云验证码插件的…

基于开源AI大模型AI智能名片S2B2C商城小程序的情感营销策略研究

摘要:本文聚焦于开源AI大模型AI智能名片S2B2C商城小程序这一新兴商业工具,探讨情感在其营销中的核心地位。情感在营销里是需突出表现的关键要素,价值观与极致化生活方式均是对情感的阐释。在开源AI大模型AI智能名片S2B2C商城小程序的背景下&a…

警惕!你和ChatGPT的对话,可能正在制造分布式妄想

2021年圣诞节,19岁的英籍印度裔男子 贾斯旺辛格柴尔 (Jaswant Singh Chail)带着一把十字弩闯入温莎城堡,声称要 刺杀英国女王 ,为英国历史上的暴行复仇。 这场荒谬的刺杀注定以失败告终。被捕后,他自称是一…

DeepSeek辅助在64位Linux中编译运行32位的asm-xml-1.4程序

在网上搜快速xml解析器时找到一个2012年的asm-xml-1.4程序说是比expat快几倍,有点不信,想编译看看。 下载了源代码, 解压缩到/par,其中obj目录下有预编译好的.o文件。 然后运行如下命令编译示例,出错了 cd /par/asm-xml-1.4/exa…

STM32CubeProgrammer软件安装

STM32CubeProgrammer软件安装 下载地址 【英文界面】STM32CubeProg | Software - STMicroelectronics 【中文界面】STM32CubeProg | Software - 意法半导体STMicroelectronics 下载 点击获取最新版本下载安装包登录ST账号进行下载当Edge浏览器下载失败时, 换个浏览器下载下…

数据结构_栈(C语言实现)超详细_Leetcode_20. 有效的括号

目录栈引出栈的定义数据定义栈结构体的定义结构操作- intitStack- freeStack()- empty()- isFull()- top()- pop()- push()- outAll()- 测试完整代码练习题目:Leetcode_20. 有效的括号代码模拟函数调用栈栈引出 栈,在我们日常生活中也非常常见&#xff…

把装配想象成移动物体的问题

移动过后然后匹配两个物体重合的部分做为配合,或者根本就不管,位置对了就行想办法怎么训练ai把加强筋位移过去

使用 PHP Imagick 扩展实现高质量 PDF 转图片功能

使用 PHP Imagick 扩展实现高质量 PDF 转图片功能 在开发中,经常需要将 PDF 文档转换为图片格式,以便于在线预览、生成缩略图或进行其他图像处理操作。PHP 的 Imagick 扩展提供了强大的图像处理能力,可以轻松实现这一需求。本文将介绍如何使用…

车载通信架构 --- DoIP企业规范中细节有哪些?

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

GPT-5发布:统一智能体时代的开启——从“工具”到“协作者”的范式跃迁

OpenAI正式发布其划时代模型——GPT-5。这不仅是一次简单的版本迭代,更是一场关于人工智能如何理解、推理与协作的深刻革命。GPT-5以“统一模型”架构为核心,融合400K上下文、超强工具调用能力、多模态输入与精细化分层服务,标志着AI正式从“…

使用PyTorch构建卷积神经网络(CNN)实现CIFAR-10图像分类

在计算机视觉领域,卷积神经网络(CNN)已经成为处理图像识别任务的事实标准。从人脸识别到医学影像分析,CNN展现出了惊人的能力。本文将详细介绍如何使用PyTorch框架构建一个CNN模型,并在经典的CIFAR-10数据集上进行图像分类任务。CIFAR-10数据…

Springboot3+SpringSecurity6Oauth2+vue3前后端分离认证授权-客户端

客户端服务整体流程前端技术栈项目结构代码后端技术栈项目结构代码整体流程 #mermaid-svg-G5v6x8CSkEcvglmt {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-G5v6x8CSkEcvglmt .error-icon{fill:#552222;}#mermaid-s…

DEEP THINK WITH CONFIDENCE-Meta-基于置信度的深度思考

原文地址 摘要 大型语言模型(LLM)通过自我一致性和多数投票等测试时间缩放方法,在推理任务中显示出巨大的潜力。然而,这种方法经常导致精度回报递减和高计算开销。为了应对这些挑战,我们引入了深度自信思考(DeepConf),这是一种简…

零基础学习数据采集与监视控制系统SCADA

新晋码农一枚,小编定期整理一些写的比较好的代码,作为自己的学习笔记,会试着做一下批注和补充,转载或者参考他人文献会标明出处,非商用,如有侵权会删改!欢迎大家斧正和讨论! 目录 一…

docker run 命令,不接it选项,run一个centos没有显示在运行,而run一个nginx却可以呢?

docker run 命令,不接it选项,run一个centos没有显示在运行,而run一个nginx却可以呢? ChatGPT said: 你问到的这个现象,其实就是 镜像默认启动命令 (ENTRYPOINT / CMD) 的差异导致的。🔍 情况分析 1. docker…

【完整源码+数据集+部署教程】水培植物病害检测系统源码和数据集:改进yolo11-AKConv

背景意义 研究背景与意义 随着全球人口的不断增长,农业生产面临着前所未有的挑战,尤其是在资源有限的环境中,如何提高作物的产量和质量成为了亟待解决的问题。水培技术作为一种新兴的农业生产方式,因其高效的水资源利用和较少的土…

第2课:环境搭建:基于DeepSeek API的开发环境配置

概述 在开始大模型RAG实战之旅前,一个正确且高效的开发环境是成功的基石。本文将手把手指导您完成从零开始的环境配置过程,涵盖Python环境设置、关键库安装、DeepSeek API配置以及开发工具优化。通过详细的步骤说明、常见问题解答和最佳实践分享&#x…

Boost电路:稳态和小信号分析

稳态分析 参考张卫平的《开关变换器的建模与控制》的1.3章节内容;伏秒平衡:在稳态下,一个开关周期内电感电流的增量是0,即 dIL(t)dt0\frac{dI_{L}(t)}{dt} 0dtdIL​(t)​0。电荷平衡:在稳态下,一个开关周期…

Vue-25-利用Vue3大模型对话框设计之前端和后端的基础实现

文章目录 1 设计思路 1.1 核心布局与组件 1.2 交互设计(Interaction Design) 1.3 视觉与用户体验 1.4 高级功能与创新设计 2 vue3前端设计 2.1 项目启动 2.1.1 创建和启动项目(vite+vue) 2.1.2 清理不需要的代码 2.1.3 下载必备的依赖(element-plus) 2.1.4 完整引入并注册(main…

Elasticsearch面试精讲 Day 7:全文搜索与相关性评分

【Elasticsearch面试精讲 Day 7】全文搜索与相关性评分 文章标签:Elasticsearch, 全文搜索, 相关性评分, TF-IDF, BM25, 面试, 搜索引擎, 后端开发, 大数据 文章简述: 本文是“Elasticsearch面试精讲”系列的第7天,聚焦于全文搜索与相关性评…