最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人 | 社区来稿

在这里插入图片描述

关键词:对话式 AI | 语音智能体 | Voice Agent | VAD | 轮次检测 | 声网 | TEN

GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。

但是,“最后一公里”的挑战仍然存在:Voice Agent 依然不像真人一样交谈。

在真实对话里,插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应,整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈,它不能只是“听见”并“答复”——它需要真正倾听、理解上下文、并自然地应对。

为了解决以上问题,为大家介绍最新开源的两款新模型:

  • TEN VAD(语音活动检测)

  • TEN Turn Detection(轮次检测)

这两个模型是由声网和RTE开发者社区主要支持,基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的 高性能模型,能够让 AI Agent 的交互体验更加自然。作为开源项目,任何人都可以自由使用、Fork 或为其贡献代码。这两款模型也将作为 开源对话式 AI 生态体系 TEN 的核心模块持续迭代优化。

TEN VAD:超低延迟、低功耗、高准确率的语音活动检测模型

TEN VAD 是一个基于深度学习的轻量级流式语音活动检测模型,具备低延迟、低功耗、高准确率等优势。它通常用于语音输入大语言模型(LLM)前的预处理步骤,准确识别是否音频中包含人声并过滤掉无效音频(例如背景噪音或静音段)。

虽然它的功能简单,但作用十分强大:

  • 准确识别音频帧中是否有人声;

  • 判断一句话的开始和结束位置;

  • 过滤掉无关音频(背景噪音、静音等);

这不仅提升了 STT 的准确性,还能显著降低处理成本–避免将无意义的声音送入到 STT 流程中从而产生费用。同时,如果你会用到“轮次检测(Turn Detection)”,那么 VAD 是你的必选项,它是轮次检测准确性的可靠保障。

性能对比

与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。

在这里插入图片描述

在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。

图片

开发者友好

TEN VAD 已在 Hugging Face 和 GitHub 上开源,并附带人工精标的数据集(TEN VAD Test Sample),开发者可以一键使用进行模型推理或模型评估。

实际应用效果

一个真实用户案例显示,使用 TEN VAD 后,音频传输数据量减少了 62% ,显著降低了语音服务成本。

👉 在 Hugging Face 和 GitHub 上试用 TEN VAD

  • https://huggingface.co/TEN-framework/ten-vad

  • https://github.com/TEN-framework/ten-vad

TEN Turn Detection:让 Voice Agent 学会“何时说、何时听”

TEN Turn Detection 重在解决 人机对话中最难的部分 之一——判断用户何时停止说话。在真实交流中,AI 需要区分出“中途停顿”与“说完了”的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。

TEN Turn Detection 支持 全双工语音交互 ,即允许用户和 AI 同时说话,就像两个人交流时那样自然。

工作原理

它不仅识别语音内容,还通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕;最终让 AI 更智能地决定“该说”还是“该听”,从而让对话更加流畅自然。

该模型支持 中英文 ,可供所有 Voice Agent 开发者自由使用。

效果表现

我们在多场景测试数据集上对比了 TEN Turn Detection 和其他同类开源模型,各模型的表现如下:

图片

👉 在 Hugging Face 和 GitHub 上试用 TEN Turn Detection

  • https://huggingface.co/TEN-framework/TEN_Turn_Detection

  • https://github.com/TEN-framework/ten-turn-detection

为什么选择 TEN VAD 和 TEN Turn Detection?

当结合使用这两个模型时可以打造出更自然、反应更迅速、成本更低的 Voice Agent:

开源 + 高质量

  • 基于声网十多年实时语音深度研究经验;

  • 超低延迟、低功耗、高准确率;

  • 完全开源,Apache 2.0 许可证,欢迎使用、修改和贡献。

更自然的对话

  • 正确处理“打断”、“停顿”、“回应”等人类式交互;

  • 极大提升用户体验。

成本更低

  • VAD 准确识别语音帧,有效减少语音识别调用量;

  • 实测结果显示:两者合用能大幅降低总系统成本。

即插即用

  • 可作为 TEN Framework 的插件模块使用;

  • 对于已经使用 TEN Framework 的开发者,支持无缝集成;

  • 对于正在选型 AI Agent 框架的团队,TEN 是具备最佳 VAD 和轮次检测能力的选择之一。

使用 TEN VAD 和 TEN Turn Detection 的最佳实践

两款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:

Hugging Face 上快速运行(推荐)

1.登录 Hugging Face;

2.打开 TEN Agent Demo;

3.点击右上角设置 > Duplicate this Space;

4.即可用 Hugging Face 提供的 GPU 部署完整体验。

本地运行(自带 GPU)

1.登录 Hugging Face;

2.打开 Demo 页右上角设置 > Run Locally;

3.按照本地部署指南(https://github.com/TEN-AI/TEN)操作即可运行完整。

在对话式 AI 的新时代,打造真正“像人”的 Voice Agent!

欢迎关注 TEN 系列产品的更新:

  • X / Twitter : @TenFramework

  • LinkedIn : Ten Framework

  • Medium : ten-framework.medium.com

📢 欢迎开发者加入我们的社区,共建 TEN!

  • 微信群: 添加 cyfyifanchen

  • Discord: https://discord.gg/w2AGczgB

  • 邮箱: developer@ten.ai

在这里插入图片描述

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/83283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI实践用例---日程规划(通用日程管理文件ICS)灵感踩坑日常

我是一位践行独立开发者之路的菜鸟开发者。 由于执行力较差,常常有很多想法但是很多时候没有去践行。 所以我有了让大模型为我生成日程安排的想法,这确实可以,很简单。只需要将你的想法告诉ai就行了。 例如: 发给AI的提示词: 我想你帮我对,嗯,未来的一年做一个嗯,大…

大疆无人机​​DRC 链路

在大疆上云API中,​​DRC 链路​​通常指 ​​Device-Cloud Remote Control Link(设备-云端远程控制链路)​​,它是无人机(或设备)与云端服务之间建立的​​实时控制与数据传输通道​​,用于实现…

tomcat一闪而过,按任意键继续以及控制台中文乱码问题

问题描述 今天在打开tomcat,启动startup.bat程序时 tomcat直接闪退,后面查找资料后发现,可以通过编辑startup.bat文件内容,在最后一行加入pause即可让程序不会因为异常而终止退出 这样方便查看tomcat所爆出的错误: 然后,我明确看到我的tomcat启动程序显示如下的内容,没有明确…

中大型水闸安全监测系统解决方案

一、方案概述 中大型水闸作为水利工程的重要组成部分,承担着调节水位、控制水流、防洪排涝等多重功能,在防洪减灾、水资源配置、生态环境改善等方面发挥着巨大作用。然而,由于历史原因,许多水闸存在建设标准偏低、质量较差、配套设…

轨迹误差评估完整流程总结(使用 evo 工具)

roslaunch .launch rosbag play your_dataset.bag -r 2.0 ✅ 第二步:录制估计轨迹 bash 复制编辑 rosbag record -O traj_only.bag /aft_mapped_to_init 运行一段时间后 CtrlC 停止,生成 traj_only.bag 第三步:提取估计轨迹和真值轨迹为…

Linux任务管理与守护进程

目录 任务管理 jobs,fg,bg 进程组概念 任务概念 守护进程 守护进程的概念 守护进程的查看 守护进程的创建 ​编辑模拟实现daemon函数 任务管理 每当有一个用户登录Linux时,系统就会创建一个会话(session) 任何…

Json rpc 2.0比起传统Json在通信中的优势

JSON-RPC 2.0 相较于直接使用传统 JSON 进行通信,在协议规范性、开发效率、通信性能等方面具有显著优势。以下是核心差异点及技术价值分析: 一、结构化通信协议,降低开发成本 传统 JSON 通信需要开发者自定义数据结构和处理逻辑,…

机器学习与人工智能:NLP分词与文本相似度分析

DIY AI & ML NLP — Tokenization & Text Similarity by Jacob Ingle in Data Science Collective 本文所使用的数据是在 Creative Commons license 下提供的。尽管我们已尽力确保信息的准确性和完整性,但我们不对数据的完整性或可靠性做任何保证。数据的使…

RK3568平台OpenHarmony系统移植可行性评估

https://docs.openharmony.cn/pages/v5.0/zh-cn/device-dev/quick-start/quickstart-appendix-compiledform.md 官方给的标准系统就是RK3568, 所以肯定可以, 关于硬件加速部分 看了鸿蒙RK3568开发板的GPU编译配置,只能说能用 https://docs.openharmony.cn/pages/v4.1/zh-cn/…

论文浅尝 | HOLMES:面向大语言模型多跳问答的超关系知识图谱方法(ACL2024)

笔记整理:李晓彤,浙江大学硕士,研究方向为大语言模型 论文链接:https://arxiv.org/pdf/2406.06027 发表会议:ACL 2024 1. 动机 多跳问答(Multi-Hop Question Answering, MHQA)技术近年来在自然语…

机器学习中的特征工程:解锁模型性能的关键

在机器学习领域,模型的性能往往取决于数据的质量和特征的有效性。尽管深度学习模型在某些任务中能够自动提取特征,但在大多数传统机器学习任务中,特征工程仍然是提升模型性能的关键环节。本文将深入探讨特征工程的重要性、常用方法以及在实际…

Kotlin与Java的融合趋势:从互操作到云原生实践

在2025年的软件开发领域,Kotlin和Java作为JVM生态的支柱语言,展现出强大的协同能力。Kotlin以其简洁的语法和现代特性迅速崛起,而Java凭借其成熟生态和稳定性依然占据主导地位。通过两者的融合,我们的实时聊天系统将开发效率提升了…

Python生成器:高效处理大数据的秘密武器

生成器概述 生成器是 Python 中的一种特殊迭代器,通过普通函数的语法实现,但使用 yield 语句返回数据。生成器自动实现了 __iter__() 和 __next__() 方法,因此可以直接用于迭代。生成器的核心特点是延迟计算(lazy evaluation&…

Flask框架入门与实践

Flask框架入门与实践 Flask是一个轻量级的Python Web框架,以其简洁、灵活和易于上手的特点深受开发者喜爱。本文将带您深入了解Flask的核心概念、基本用法以及实际应用。 什么是Flask? Flask是由Armin Ronacher于2010年开发的微型Web框架。与Django等…

数学复习笔记 14

前言 和家里人交流了一下,他们还是希望我全力以赴初试,我确实也得放开了干,不要束手束脚的。好好加油。感觉公共课都没有啥压力,主要是专业课要好好加油,真不能过不了线,要是过不了线,啥都白搭…

金格iWebOffice控件在新版谷歌Chrome中不能加载了怎么办?

金格iWebOffice控件是由江西金格网络科技有限责任公司开发的中间件软件,主要用于在浏览器中直接编辑Word、Excel、PowerPoint等Office文档,曾经是一款优秀国产的WebOffice插件。 由于2022年Chrome等浏览器取消支持PPAPI接口,导致这款金格iWe…

ChatGPT 能“记住上文”的原因

原因如下 你把对话历史传给了它 每次调用 OpenAI 接口时,都会把之前的对话作为参数传入(messages 列表),模型“看见”了之前你说了什么。 它没有长期记忆 它不会自动记住你是谁或你说过什么,除非你手动保存历史并再次…

微信小程序van-dialog确认验证失败时阻止对话框的关闭

使用官方(Vant Weapp - 轻量、可靠的小程序 UI 组件库)的before-close&#xff1a; wxml&#xff1a; <van-dialog use-slot title"名称" show"{{ show }}" show-cancel-button bind:cancel"onClose" bind:confirm"getBackInfo"…

K8S Ingress、IngressController 快速开始

假设有如下三个节点的 K8S 集群&#xff1a; ​ k8s31master 是控制节点 k8s31node1、k8s31node2 是工作节点 容器运行时是 containerd 一、理论介绍 1&#xff09;什么是 Ingress 定义&#xff1a;Ingress 是 Kubernetes 中的一种资源对象&#xff0c;它定义了外部访问集群内…

Vue3 + Element Plus 动态表单实现

完整代码 <template><div class"dynamic-form-container"><el-formref"dynamicFormRef":model"formData":rules"formRules"label-width"auto"label-position"top"v-loading"loading"&g…