基于规则的自然语言处理

基于规则的自然语言处理

  • 规则方法
    • 形态还原(针对英语、德语、法语等)
    • 中文分词
      • 切分歧义
      • 分词方法
      • 歧义字段消歧方法
      • 分词带来的问题
    • 词性标注
    • 命名实体分类
    • 机器翻译
    • 规则方法的问题

规则方法

以规则形式表示语言知识,强调人对语言知识的理性整理(知识工程——词典-主谓宾规则)
在这里插入图片描述

形态还原(针对英语、德语、法语等)

构词特点:

  1. 曲折变化:词尾和词形变化,词性不变。如study, studied, studied, studying
  2. 派生变化:加前缀和后缀,词性发生变化。如friend, friendly, friendship,…
  3. 复合变化:多个单词以某种方式组合成一个词。

还原时分两种情况,一种是变化有规律的通用规则,一种是变化无规律的个性规则。如went → \rightarrow go就是典型的不规则动词还原举例。

中文分词

分词是指根据某个分词规范,把一个“字”串划分成“词”串。一个词可能有多个语素,这会在分词时带来困难。

切分歧义

  1. 交集型歧义:ABC切分成AB/C或A/BC
  2. 组合型歧义:AB切分成AB或A/B
  3. 混合型歧义:交集型歧义和组合型歧义嵌套和交叉而成(既有交集型歧义又有组合型歧义)

伪歧义与真歧义
伪歧义字段指在任何情况下只有一种切分,根据歧义字段本身就能消歧。
真歧义字段指在不同的情况下有多种切分,要根据歧义字段的上下文来消歧。

分词方法

正向最大匹配(FMM)或逆向最大匹配(RMM):从左至右(FMM)或从右至左(RMM),取最长的词

双向最大匹配:分别采用FMM和RMM进行分词,能发现交集型歧义(“幼儿园/地/节目”和“幼儿/园地/节目”),如果结果一致,则认为成功;否则,采用消歧规则进行消歧。

正向最大、逆向最小匹配:正向采用FMM,逆向采用最短词,能发现组合型歧义(“他/骑/在/马上”和“他/骑/在/马/上”)。

逐词遍历匹配:在全句中取最长的词,去掉之,对剩下字符串重复该过程。

设立切分标志:收集词首字和词尾字,先把句子分成较小单位,再用某些方法切分。

全切分:可能的切分,选择最可能的切分(用统计方式,概率化各种切分)

歧义字段消歧方法

利用歧义字串、前驱字串和后继字串的句法、语义和语用信息。

分词带来的问题

组成词的字的信息丢失,错误的分词影响后续的工作,不同分词规范的分词造成分词结果不一致(判断哪个对需要人工check)

词性标注

为句子中的词标上预定义类别集合中的类(词性),目标是为后续的句法/语义分析提供必要的信息。在词性标注中,一个很大的挑战是兼类词,即一个词具有两个或者两个以上的词性,英文的Brown语料库中,10.4%的词是兼类词。

命名实体分类

命名实体分类可以分为三大类也可以分为七大类:

  1. 3大类– 实体类、时间类、数字类
  2. 7大类– 人名、地名、机构名、时间、日期、货币量、百分数

基于规则的命名实体识别,由专家总结实体词表,利用词表进行匹配,速度快但是覆盖率有限,且需要人力总结,适合垂直领域,如医疗、金融、法律等。

机器翻译

机器翻译(Machine Translation)是一个将源语言的句子x翻译成目标语言句子y(译文)的任务。
在这里插入图片描述
规则翻译遵循以下几个步骤:

  1. 分析:将源语言句子解析成一种深层的结构表示,如前文所说的分词就是这一部分的内容
  2. 转换:将源语言句子的深层结构表示转换成目标语言的深层结构表示
  3. 生成:根据目标语言的深层结构表示生成对应的目标语言句子
    在这里插入图片描述

在词汇层次,根据词汇转换规则进行转换,句法分析时则递归地利用一组“树-树”的转换规则,把源语言的句法树转换成目标语言的句法树,从目标语言的句法树生成目标语言句子。

基于中间语言(INTERLINGUA)的翻译指对源语言进行分析,得到一个独立于源语言和目标语言的、基于概念的中间语言表示,然后从这个中间语言表示生成目标语言。对于n种语言之间的翻译(多语翻译)– 转换翻译需要n(n-1)个模块,而中间语言翻译只需要2n个模块,但是中间语言翻译加大了语言分析的难度(大量的消歧),因此需要考虑对机器翻译来说,这样的分析是否必要。
在这里插入图片描述

  • 优点:在多语翻译时可以降低模块的数量
  • 缺点:质量得不到保证

规则方法的问题

  • 规则质量依赖于语言学家的知识和经验,获取成本高
  • 规则之间容易发生冲突
  • 大规模规则系统维护难度大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue Fragment vs React Fragment

文章目录 前言🧩 一、概念对比:Vue Fragment vs React Fragment📦 二、使用示例对比✅ Vue 3 中使用 Fragment✅ React 中使用 Fragment 🔍 三、差异解析1. **使用方式**2. **传递属性(如 key)**3. **插槽系…

3D图像渲染和threejs交互坐标系入门知识整理

1. Games101 b站上面就有,看到第9节课基本对于图形渲染的原理和渲染过程有所了解。然后就可以使用openGL和GLSL。 点输入->投影到二维(生成三角形面)->光栅化为像素->z-buffer深度缓存判断层级->着色shading 2. openGL和GLSL 参…

跨平台架构区别

文章目录 重编译时轻运行时(uniapp)轻编译时重运行时(Taro) 重编译时轻运行时(uniapp) 对 vue 语法直接进行编译转换成对应平台代码,再通过添加运行时代码去补充能力,比如 nextTick…

windows系统MySQL安装文档

概览:本文讨论了MySQL的安装、使用过程中涉及的解压、配置、初始化、注册服务、启动、修改密码、登录、退出以及卸载等相关内容,为学习者提供全面的操作指导。关键要点包括: 解压 :下载完成后解压压缩包,得到MySQL 8.…

macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…

HarmonyOS 应用开发学习记录 - 从Windows开发者视角看鸿蒙开发

起始 2024年6月21日召开的华为开发者大会2024上宣布Harmony OS NEXT(即鸿蒙星河版)面向开发者启动Beta版,这也被人们称为“纯血鸿蒙”,它基于鸿蒙内核,不再兼容安卓开发的APP应用。 时至今日近一年了,我也有…

MySQL 事务管理与锁优化:确保数据一致性和并发性

在多用户并发访问的数据库系统中,如何确保数据的**一致性(Consistency)和并发性(Concurrency)**是一个核心挑战。**事务(Transaction)和锁(Lock)**是 MySQL 应对这一挑战的两大利器。事务保证了操作的原子性、一致性、隔离性和持久性,而锁机制则在并发环境下协调不同…

OpenPrompt 有没有实现连续提示词和提手动示词一起优化的

OpenPrompt 有没有实现连续提示词和提手动示词一起优化的 OpenPrompt 中连续提示词与手动提示词的混合优化 OpenPrompt 确实支持同时优化连续提示词(Soft Prompt)和手动设计的离散提示词(Manual Prompt)。这种混合优化策略可以结合两者的优势: 连续提示词:通过梯度下降…

Android添加语言列表

方式一 frameworks\base\packages\SettingsProvider\src\com\android\providers\settings\DatabaseHelper.java Settings.System.putString(context.getContentResolver(),Settings.System.SYSTEM_LOCALES, "ru-RU,en-US"); 方式2 packages/apps/Settings/src/co…

解决uniapp开发app map组件最高层级 遮挡自定义解决底部tabbar方法

subNvue,是 vue 页面的原生子窗体,把weex渲染的原生界面当做 vue 页面的子窗体覆盖在页面上。它不是全屏页面,它给App平台vue页面中的层级覆盖和原生界面自定义提供了更强大和灵活的解决方案。它也不是组件,就是一个原生子窗体。 …

如何保障服务器的安全

如何保障服务器的安全 以下是保障服务器安全的核心措施及实施建议: 一、基础设施层防护 物理安全 机房设置防火/防水/防雷系统,部署门禁监控设备。 服务器固定于抗震机架,避免物理损坏。 网络防护 防火墙规则:仅开放业务必要端…

C语言 学习 C程序的内存模型 2025年6月10日08:55:13

堆栈与内存管理 堆栈(Stack) : 后进先出(LIFO) 线性数据结构 包含压栈(Push) ,弹栈(Pop) 用途:临时存储数据(函数调用,局部变量) 管理:由系统自动分配和回收 速度快 ,容量有限! 堆栈代码示例: //堆栈示例 :局部变量 void getText() {int text20;//储存在堆栈中 } 内存管理…

CppCon 2015 学习:Implementing class properties effectively

这段内容讲的是C中“属性”(Property)的实现及其设计理念,并结合一个实际类Text来说明。中文理解如下: 关于“属性”(Property) 属性:介于类的字段(field)和方法&#…

[electron]预脚本不显示内联script

script-src self 是 Content Security Policy (CSP) 中的一个指令,它的作用是限制加载和执行 JavaScript 脚本的来源。 具体来说: self 表示 当前源。也就是说,只有来自当前网站或者当前页面所在域名的 JavaScript 脚本才被允许执行。"…

基于安卓的文件管理器程序开发研究源码数据库文档

摘 要 伴随着现代科技的发展潮流,移动互联网技术快速发展,各种基于通信技术的移动终端设备做的也越来越好了,现代智能手机大量的进入到了我们的生活中。电子产品的各种软硬技术技术的发展,操作系统的不断更新换代,谷歌…

MySQL主从复制实现指南

MySQL主从复制实现指南 一、主从复制原理 #mermaid-svg-i1zOswdD4OORQ35t {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-i1zOswdD4OORQ35t .error-icon{fill:#552222;}#mermaid-svg-i1zOswdD4OORQ35t .error-text…

spring jms使用

文章目录 一、背景介绍二、注意点说明三、代码pom.xmlmq.propertiesActiveMqConfigJmsSenderActiveMqInfoActivemqProtocolEnum生产者消费者 一、背景介绍 <dependency> 标签中列出的 spring-jms 是 Spring Framework 提供的一个模块&#xff0c;用于简化 Java Message …

笔记——学习HTTP协议

HTTP协议 文章目录 HTTP协议一、统一资源定位符&#xff08;url&#xff09;&#xff1a;URL编码格式&#xff1a; 二、HTTP报文结构&#xff1a;三、HTTP请求方法&#xff1a;四、HTTP常见请求头&#xff1a;五、HTTP状态码&#xff1a;六、HTTP常见响应头&#xff1a;七、HTT…

Unity中的Mathf.Clamp01

2025年6月8日&#xff0c;周日晚上 Mathf.Clamp01 是 Unity 中的一个数学函数&#xff0c;它的作用是将一个浮点数&#xff08;float&#xff09;限制在0 到 1的范围内。具体来说&#xff1a; 如果输入值 小于 0&#xff0c;则返回 0。 如果输入值 大于 1&#xff0c;则返回 1…

1 Studying《Linux Media Documentation》

目录 1 MEDIA SUBSYSTEM ADMIN AND USER GUIDE 1.1.2 Building support for a media device 1.1.3 Infrared remote control support in video4linux drivers 1.1.4 Digital TV 1.1.5 Cards List 1.1.5.2 PCI drivers 1.1.6 Video4Linux (V4L) driver-specifific docume…