【语音技术】意图与语料

目录

1. 意图

1.1. 意图分类

1.1.1 入口意图(Entry Intent)

1.1.2 对话意图(Dialog Intent)

1.2. 意图类型切换操作步骤

2. 语料

2.1 语料分类详解

2.2 语料编写规范详解

2.3 标签符号深度说明

3. 词槽

3.1 符类型要求

3.2 格式规范示例

3.3 特殊处理建议

3.4 应用场景示例

3.5 错误示范


1. 意图

意图指一个明确的用户目的或用户想要完成的具体任务。在对话系统中,意图识别是理解用户输入的关键环节。

例如:

  • 在餐厅技能中,"订位"意图对应预订餐桌功能,"点餐"意图对应菜品选择功能

  • 在天气技能中,"查询天气"意图对应获取天气信息功能

意图是对话技能的基础组成部分,每个意图通常代表:

  • 一个独立功能(如"查询余额")

  • 一组相关功能(如"账户管理"可能包含查询余额、修改密码等子意图)

  • 特定场景下的交互流程(如"投诉处理"可能包含多个步骤的对话)

1.1. 意图分类

1.1.1 入口意图(Entry Intent)

  • 特点:独立性强,不需要依赖历史对话信息即可响应

  • 触发条件:用户首次使用技能或切换技能时的初始请求

  • 示例:

    • 直接说"打开餐厅技能"触发入口意图

    • "我要订餐"作为首次请求触发订餐入口意图

  • 作用:确定交互场景,建立技能上下文

1.1.2 对话意图(Dialog Intent)

  • 特点:需要基于已有交互上下文才能正确响应

  • 触发条件:必须在该技能的对话流程中才能识别

  • 工作机制:

    1. 先通过入口意图确定技能范围

    2. 在后续对话中识别对话意图

  • 示例:

    • 在餐厅技能中,先触发"订位"入口意图后

    • 接着询问"需要几人位"识别为"人数确认"对话意图

  • 设计目的:

    • 避免不同技能间的意图混淆

    • 确保对话流程的连贯性

    • 支持多轮对话的上下文理解

1.2. 意图类型切换操作步骤

  • 登录系统后,在左侧导航栏中找到"意图管理"模块并点击进入

  • 在意图列表中找到需要修改的意图(可通过搜索框输入意图名称快速定位)

  • 点击该意图名称或右侧的"详情"按钮,进入意图详情页面

  • 在意图详情页面上方找到并点击"编辑"按钮(通常显示为铅笔图标或"编辑"文字按钮)

  • 在编辑模式下,定位到"意图类型"设置项(通常位于基本信息区域)

  • 点击意图类型下拉菜单,系统会显示可选类型,如:

    • 问答型

    • 任务型

    • 导航型

    • 推荐型

  • 选择新的意图类型(注意不同类型可能对应不同的参数配置)

  • 确认修改无误后,点击页面底部的"保存"按钮

  • 系统会弹出保存成功的提示,并自动返回意图详情页面

注意事项:

  • 意图类型切换可能会影响与该意图关联的对话流程

  • 某些特定类型之间可能存在转换限制

  • 建议在非业务高峰期进行此类操作

  • 修改前可通过"历史版本"功能备份当前配置

2. 语料

2.1 语料分类详解

模板语料(推荐使用)

模板语料采用结构化方式定义,由固定文本和可变槽位组成,使用{}包裹槽位名称。每个槽位可以绑定特定实体类型(如时间、地点等)或辅助词,实现灵活匹配。

典型特征:

  • 结构清晰,便于系统解析

  • 支持多种参数化组合

  • 示例扩展:

    • {city}{date}天气 → "北京今天天气"、"上海明天天气"

    • 查一下{product}的价格 → "查一下手机的价格"、"查一下笔记本电脑的价格"

例句语料

由完整自然语句构成,需要通过手动标注方式标记槽位。适用于以下场景:

  • 收集真实用户表达样本

  • 处理特殊表达句式

  • 示例标注过程: 原始例句:"帮我订明天上午的机票" 标注后:"帮我订{date}{time}的机票"

重要限制:

  • 同一意图内禁止混合使用两种语料类型

  • 模板语料优先用于可抽象的场景

  • 例句语料适合处理固定说法

2.2 语料编写规范详解

模板语料字符集

允许使用范围更广的符号集,包含:

  • 基础字符:汉字、数字、字母(大小写)

  • 数学符号:+ - × ÷ / =

  • 标点符号:英文,.!? 中文,。!

  • 特殊符号:<>{}|_#'"°%

应用示例:

  • 查询{stock_code}[的股价] → 可匹配"查询AAPL"和"查询AAPL的股价"

  • 设置闹钟为{time}(am|pm) → 匹配"设置闹钟为8:30am"

例句语料字符集

限制较多,主要包含:

  • 基本标点:,。.!?

  • 运算符号:+ - × ÷ /

  • 特殊符号:_#'"°%

典型用例:

  • "订单号ABC123_456,尽快发货!"

  • "当前室温25°C,湿度60%"

2.3 标签符号深度说明

词槽标记 {}

  • 命名规范示例:

    • 合法:{user_name}、{order.no}、{item_3}

    • 非法:{用户名}(含中文)、{date!}(含特殊符号)

  • 绑定示例: {city}天气 + 绑定"city"到"城市"实体 → 可识别"北京天气"、"上海天气"

必选分组 ()

  • 实现分支匹配: (打开|关闭)灯 等效于:

    • "打开灯"

    • "关闭灯"

  • 嵌套使用: (查询|查找)(机票|酒店) 生成4种组合

可选标记 []

  • 多级可选: [请][帮我]查询余额 匹配:

    • "查询余额"

    • "请查询余额"

    • "帮我查询余额"

    • "请帮我查询余额"

  • 组合应用: [查询]{product}[的](价格|售价) 可匹配: "手机价格"、"查询笔记本电脑的售价"等8种组合

特殊注意事项

  1. 符号必须成对出现

  2. 嵌套层级建议不超过3层

  3. 避免过度复杂化,如: [([{date}]的)]天气(不易维护)

  4. 性能考虑:单句语料总组合数建议控制在100种以内

  • 例句语料如需配置词槽可有可无,可将对应词槽转换为辅助词,并取消勾选表述必须

3. 词槽

词槽是自然语言处理中用于结构化信息提取的重要工具,建议使用以下规范来填充词槽内容:

3.1 符类型要求

  • 优先使用小写字母(a-z)

  • 数字(0-9)可用于表示数量、编号等信息

  • 下划线(_)可用于连接单词或短语

  • 连字符(-)可用于表示范围或连接

3.2 格式规范示例

  • 日期格式:2023-08-15

  • 时间格式:14:30

  • 电话号码:+86_13800138000

  • 商品编号:item_2023_001

3.3 特殊处理建议

  • 避免使用空格、中文标点等特殊字符

  • 统一大小写格式(推荐全小写)

  • 对于专有名词可保留首字母大写

  • 超过15个字符时建议使用缩写

3.4 应用场景示例

  • 航班预订:"departure_city=shanghai"

  • 酒店查询:"check_in_date=2023-12-25"

  • 电商购物:"product_id=phone_x200"

3.5 错误示范

  • 包含空格:"new york"(应改为"new_york")

  • 使用中文字符:"北京"(应改为"beijing")

  • 特殊符号:"price=¥100"(应改为"price=100")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91772.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91772.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySQL集群架构与实践5】使用Docker实现水平分片

目录 一. 在Docker中安装ShardingSphere 二. 实践&#xff1a;水平分片 2.1 应用场景 2.2 架构图 2.3 服务器规划 2.4 创建server-user容器 2.5 创建server-order0和server-order1容器 2.6.日志配置 2.7 数据节点配置 2.8.测试数据节点 2.8.1.测试server_order0.t_or…

视觉图像处理中级篇 [1]—— 彩色照相机的效果与预处理

在工业检测中&#xff0c;黑白相机虽应用广泛&#xff0c;但在应对颜色差异检测时往往力不从心。彩色照相机凭借其对色彩信息的精准捕捉&#xff0c;成为复杂场景下的理想选择&#xff0c;而预处理技术则进一步释放了其性能潜力。一、彩色照相机的效果检查盖子上的金色标签可以…

使用 BERT 的 NSP 实现语义感知切片 —— 提升 RAG 系统的检索质量

在构建 Retrieval-Augmented Generation&#xff08;RAG&#xff09;系统时&#xff0c;文档的切片方式至关重要。我们需要将长文本切分成合适的段落&#xff08;chunks&#xff09;&#xff0c;然后存入向量数据库进行召回。如果切得太粗&#xff0c;会丢失上下文细节&#xf…

使用STM32CubeMX生成的STM32CubeIDE工程在更改工程名后编译失败问题解决

0 问题描述 使用STM32CubeMX生成STM32CubeIDE工程,然后使用STM32CubeIDE改名后编译提示如下错误: 1 问题原因及解决办法 1.1 问题原因 原因在于更名后STM32CubeIDE没有自动更新引用关系,这是因为我们使用STM32CubeMX生成代码时没有勾选在根目录下生成: 取消勾选在根目…

8月3日星期日今日早报简报微语报早读

8月3日星期日&#xff0c;农历闰六月初十&#xff0c;早报#微语早读。1、广西防城港&#xff1a;奔驰女司机身份已查清&#xff0c;结果将统一对外发布&#xff1b;2、陈艺文、陈佳包揽游泳世锦赛女子跳水三米板金银牌&#xff1b;3、九省份保险业已赔付暴雨灾害损失5.2亿元&am…

wxPython 实践(六)对话框

wxPython 实践&#xff08;一&#xff09;概述 wxPython 实践&#xff08;二&#xff09;基础控件 wxPython 实践&#xff08;三&#xff09;页面布局 wxPython 实践&#xff08;四&#xff09;事件响应 wxPython 实践&#xff08;五&#xff09;高级控件 wxPython 实践&#x…

MATLAB科研数据可视化技术

互联网的飞速发展伴随着海量信息的产生&#xff0c;而海量信息的背后对应的则是海量数据。如何从这些海量数据中获取有价值的信息来供人们学习和工作使用&#xff0c;这就不得不用到大数据挖掘和分析技术。数据可视化分析作为大数据技术的核心一环&#xff0c;其重要性不言而喻…

文明存续的时间博弈:论地球资源枯竭临界期的技术突围与行动紧迫性

摘要当地球资源消耗以指数级速度逼近生态承载力极限&#xff0c;人类文明正面临“存续还是消亡”的终极抉择。本文基于地球资源枯竭的实证数据与技术突破的可行性分析&#xff0c;揭示文明存续的时间窗口已进入不可逆临界期&#xff08;2040-2070年&#xff09;&#xff0c;论证…

Elasticsearch 8.19.0 和 9.1.0 中 LogsDB 和 TSDS 的性能与存储改进

作者&#xff1a;来自 Elastic Martijn Van Groningen 探索 TSDS 和 LogsDB 的最新增强功能&#xff0c;包括优化 I/O、提升合并性能等。 Elasticsearch 带来了许多新功能&#xff0c;帮助你为你的使用场景构建最佳搜索解决方案。通过我们的示例笔记本深入学习&#xff0c;开始…

cs336之注意pytorch的tensor在哪里?(assert的使用)

问题 记住&#xff1a;无论何时你在pytorch中有一个张量tensor&#xff0c;你应该始终问一个问题&#xff1a;它当前位于哪里&#xff1f; 注意它在CPU还是在GPU中。要判断它在哪里&#xff0c;可以使用python的assert断言语句。 assert断言 在 Python 中&#xff0c;assert 是…

Mysql 分区表

分区表是将一张表分成多张独立子表&#xff0c;每个子表是一个区&#xff0c;目的是提高查询效率。 从 server 层来看&#xff0c;只有一张表。但是从引擎层来看&#xff0c;是多张表&#xff0c;对应多个.idb文件。引擎层访问数据只访问特定分区表&#xff0c;也只对特定分区表…

Makefile 入门与实践指南

Makefile 是用于 make 工具的配置文件&#xff0c;它定义了如何编译和链接你的项目&#xff0c;让构建过程自动化。一、核心概念 make 的核心思想是 “目标”&#xff08;Target&#xff09; 和 “依赖”&#xff08;Dependencies&#xff09;&#xff1a; 目标 (Target)&#…

分布式微服务--Nacos作为配置中心(补)关于bosststrap.yml与@RefreshScope

一、关于bosststrap.yml✅ bootstrap.yml 和 application.yml 的区别对比项bootstrap.ymlapplication.yml加载时机优先于 application.yml 加载&#xff08;启动早期&#xff09;程序初始化完成后加载主要用途设置应用的外部配置源、注册中心信息等设置应用内部配置&#xff0c…

[Qt]QString 与Sqlite3 字符串互动[汉字不乱码]

环境&#xff1a;Qt C&#xff08;msvc c&#xff09;1.将与数据库交互的代码文件编码转换为utf-8-bom编码&#xff0c;&#xff08;可使用notepad 进行转换&#xff09;2.在代码文件头文件中加上下面代码。//vs2010 版本是 1600 #if defined(_MSC_VER) && (_MSC_VER &…

SpringBoot启动项目详解

SpringBoot 的启动过程是一个整合 Spring 核心容器、自动配置、嵌入式服务器等功能的复杂流程&#xff0c;核心目标是 “简化配置、快速启动”。下面从入口类开始&#xff0c;逐步拆解其详细启动步骤&#xff1a;一、启动入口&#xff1a;SpringBootApplication与main方法Sprin…

PCB 控深槽如何破解 5G 基站 120℃高热魔咒?

5G 基站在高频通信下的功耗较 4G 基站提升 3-4 倍&#xff0c;射频模块、电源单元等核心部件的工作温度常突破 120℃&#xff0c;远超设备安全阈值&#xff08;≤85℃&#xff09;&#xff0c;形成制约通信稳定性的 “高热魔咒”。印制线路板&#xff08;PCB&#xff09;作为热…

NEXT.js 打包部署到服务器

在网上查了一下&#xff0c;记录一下1.首先执行打包命令&#xff0c;我这个项目是用的pnpm&#xff0c;可以根据项目需求使用 npm 或者别的pnpm run build2.打包完成后会有一个 .next 的文件夹&#xff0c;需要把下图的这些文件放到服务器。服务器需要有node环境之后就需要执行…

【AI分析】uv库自动安装脚本uv-installer-0.8.3.ps1分析

目录uv 安装脚本完整分析报告1. 脚本概述2. 参数解析3. 环境变量控制4. 核心函数详解a. Install-Binary&#xff08;主控函数&#xff09;b. Get-TargetTriple&#xff08;架构检测&#xff09;c. Download&#xff08;下载处理&#xff09;d. Invoke-Installer&#xff08;安装…

etcd 的安装与使用

介绍 Etcd 是一个 golang 编写的分布式、高可用的一致性键值存储系统&#xff0c;用于配置共享和服 务发现等。它使用 Raft 一致性算法来保持集群数据的一致性&#xff0c;且客户端通过长连接 watch 功能&#xff0c;能够及时收到数据变化通知&#xff0c;相较于 Zookeeper 框…

conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正

详细问题 PS C:\Users\wh109> conda init powershell conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写&#xff0c;如果包括路径&#xff0c;请确保路径正 确&#xff0c;然后再试一次。 所在位置 行:1 字符: 1conda init pow…