BPE(Byte Pair Encoding)分词算法

下面是对 BPE(Byte Pair Encoding)分词算法的深入介绍,涵盖其背景、原理、实现细节、数学机制、优缺点以及在自然语言处理中的实际应用。


一、背景与动机

在自然语言处理中,模型输入通常需要被转换为数值序列,而这首先需要将文本拆分为可处理的最小单元。传统的分词策略有三类:

  1. 词级分词(Word-level Tokenization):容易出现 OOV(Out-of-Vocabulary)问题;

  2. 字符级分词(Character-level Tokenization):过于细碎,序列长度太长;

  3. 子词级分词(Subword-level Tokenization):在这两者之间取得平衡,BPE 就属于这一类。

BPE 分词的核心思想是:通过数据驱动的方法找出最常见的字符组合,以此构建词汇表,使模型既能处理高频词,又能组合出低频词或新词。


二、BPE 的起源

最早的 BPE 是一种用于数据压缩的算法,由 Philip Gage 在 1994 年提出。它的原始用途是用频繁的字节对替换为一个新符号,从而减少文件大小。

2016 年,Sennrich 等人将其引入自然语言处理,用于构建子词单元,从而提升神经机器翻译的效果(论文标题为 "Neural Machine Translation of Rare Words with Subword Units")。


三、BPE 分词算法的核心思想

BPE 是一个基于统计的、贪心的合并策略,其核心思想是:

不断合并训练语料中出现频率最高的符号对(symbol pair)为新符号,直到达到预定词表大小或合并次数。

这些“符号”最初是字符,随着合并的进行,可能变成字符组合。


四、BPE 的详细算法流程

输入:

  • 语料(文本数据)

  • 目标词汇表大小(或最大合并次数)

步骤:

第一步:初始化

将所有词语按字符划分,每个词结尾添加一个特殊终止符,如 </w>,以区分词边界。例如:

"low"    → l o w </w>
"lower"  → l o w e r </w>
"newest" → n e w e s t </w>

每个词都被拆成字符序列,并统计出现频率。


第二步:统计字符对频率

遍历整个词表,统计每个相邻字符(或子词)对出现的总次数。

例如:

"l o w </w>":字符对 ("l", "o")、("o", "w")、("w", "</w>")

将这些字符对及其频率记录下来。


第三步:合并频率最高的字符对

找出出现频率最高的字符对(如 "o w"),并将其视为一个新子词 "ow"。

例如:

"l o w </w>" → "l ow </w>"
"l o w e r </w>" → "l ow e r </w>"

更新词表,替换所有出现该字符对的地方。


第四步:重复步骤 2~3

继续统计新的子词对频率,并合并频率最高的一对,直到达到指定的合并次数或词表大小为止。


第五步:构建最终词表

在所有合并步骤中出现过的子词都可以构成词表(vocabulary),用于编码文本。


举个简化例子:

给定词频如下:

low: 5
lowest: 2
newest: 6
newer: 3

初始化分词(添加 </w>):

l o w </w>      ×5
l o w e s t </w>×2
n e w e s t </w>×6
n e w e r </w>  ×3

第一轮统计所有字符对频率,如 ("e", "s") 出现频率最高 → 合并为 "es"

继续合并 → ("es", "t") → "est" → ("n", "e") → "ne"……

直到构建出子词如:

"low", "new", "est", "er", "ne", "er", "lowest", "newest"

这样,无论是高频词(如 newest)还是低频词(如 newer),都能被拆解成已知子词。


五、BPE 分词的编码与解码

编码:

编码时,BPE 会根据训练生成的子词词表,用最长匹配的策略将输入词切分为子词组合。

比如输入词 newer

  • 子词词表有:newer

  • 输出:new er

若词表没有 newer 但有 newer,则输出:n e w er

解码:

将子词逐个拼接回原始词,如果有 </w> 终止符,就表示到一个词的结尾。


六、BPE 的优点与缺点

优点:

  1. 处理 OOV(未登录词)能力强:所有词都可以拆成子词,模型不会因不认识词而出错。

  2. 词表大小可控:相比整词级分词,词表更小,占用内存更少。

  3. 训练速度快,易于实现

  4. 子词建模兼顾精细性与语义性,保留了一定的语言结构信息。

缺点:

  1. 合并操作是贪心策略,非全局最优

  2. 同一个词可能被拆分成不同子词序列,影响一致性(尤其在跨语料中)

  3. 不会考虑上下文:合并是基于频率的,无法根据语境灵活调整。


七、BPE 与其他分词算法对比

方法OOV处理词表大小序列长度是否上下文相关
Word-level
Char-level
BPE
Unigram LM更灵活
SentencePiece更健壮


八、在实际系统中的应用

1. HuggingFace Transformers

HuggingFace 的 tokenizers 库中提供了 ByteLevelBPETokenizer,被 GPT-2 和 RoBERTa 等模型使用。

2. SentencePiece + BPE 模式

Google 的 BERT 和 T5 使用 SentencePiece,它支持 BPE 和 Unigram 模型。

3. GPT 系列

OpenAI GPT 系列(包括 GPT-2、GPT-3)使用了一种改进版的 BPE,称为 Byte-Level BPE,对输入进行字节级别处理,能处理任意 UTF-8 字符。


九、小结

BPE 是一种高效的分词算法,介于词级和字符级之间。通过频率驱动的合并策略,构建出对语言有表达能力的子词单元,有效减少词表大小,提升模型泛化能力。如今,它已成为现代 NLP 模型(如 Transformer 系列)的基础技术之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/91203.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/91203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ssm学习笔记day07mybatis

项目的准备 创建springboot项目&#xff08;moudle&#xff09;&#xff0c;加入依赖lombok(自动添加setter,getter,toString)、Spring Web&#xff08;处理servlet请求&#xff09;、MySQL Driver(mysql的驱动器&#xff09;、JDBC&#xff08;JAVA与mysql的接口&#xff09;、…

Kubernetes 高级调度01

目录 一、 初始化容器 InitContainer 1. InitContainer 的基本概念 2. 延迟指定时间后启动 3. 使用初始化容器修改内核参数 4. 等待依赖的服务启动后再启动应用 5. pause 容器 二、 临时容器 Ephemeral Containers 1. 临时容器的概念 2. 临时容器的使用示例 三、 自动…

Spring MVC2

在Spring MVC1中&#xff0c;我们知道了MVC的定义&#xff0c;同时也知道了RequestMapping和RestController这个注解的作用。本篇文章&#xff0c;我们将学习使用Spring MVC获取请求参数和返回不同的响应等等请求传递单个参数如图所示&#xff0c;创建RequestController类&…

项目文章(IF:9.3)转录因子ChIP-seq助力揭示CsphyB-CsPIF4-CsBRC1模块调控ABA合成和腋芽生长发育

分枝生长是作物农业特性中的一项重要指标&#xff0c;它直接影响植株的结构和作物的产量。黄瓜&#xff08;学名&#xff1a;Cucumis sativus L.&#xff09;是一种在全球范围内具有重要经济价值和营养价值的重要蔬菜作物。在田间环境中&#xff0c;具有更多侧枝的黄瓜植株更受…

NSSCTF Web 一点学习

[SWPUCTF 2021 新生赛]jicao连接&#xff1a;利用hackbar&#xff0c;按照php的判断条件来得到flag[SWPUCTF 2021 新生赛]easyrce连接&#xff1a;url读取并且执行先用ls查看flag位置&#xff1a;找到了个看起来是flag的文件cat一下&#xff1a;得到flag[SWPUCTF 2021 新生赛]c…

【STM32项目】环境监测设计

✌️✌️大家好&#xff0c;这里是5132单片机毕设设计项目分享&#xff0c;今天给大家分享的是基于《基于STM32的环境监测设计》。 目录 1、系统功能 2.1、硬件清单 2.2、功能介绍 2.3、控制模式 2、演示视频和实物 3、系统设计框图 4、软件设计流程图 5、原理图 6、主…

不同系统记录项目进度不一致,如何统一口径

不同系统记录项目进度不一致&#xff0c;会造成项目管理混乱、信息混淆和决策失误。统一口径的方法包括&#xff1a;采用统一的项目管理平台、明确数据记录与更新规范、建立进度数据对接与整合机制。特别是采用统一的项目管理平台&#xff0c;通过统一的信息输入与输出渠道&…

玩转Docker | 使用Docker部署Drawnix在线白板工具

玩转Docker | 使用Docker部署Drawnix在线白板工具 前言一、Drawnix介绍Drawnix简介Drawnix主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署Drawnix服务下载Drawnix镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问Drawnix服务访…

Linux操作系统从入门到实战(九)Linux开发工具(中)自动化构建-make/Makefile知识讲解

Linux操作系统从入门到实战&#xff08;九&#xff09;Linux开发工具&#xff08;中&#xff09;自动化构建-make/Makefile前言一、 make/Makefile是什么&#xff1f;1. 我们先想个问题&#xff1a;手动编译代码有多麻烦&#xff1f;2. 为了解决麻烦&#xff0c;才有了自动化工…

开源b2b2c商城源码 支持多端适用 含完整代码包和图文搭建教程

在电商行业蓬勃发展的当下&#xff0c;b2b2c商城系统成为众多企业拓展业务版图的有力工具。这种支持自营与商家入驻并存的系统&#xff0c;含丰富平台商品种类&#xff0c;能通过多元化运营提升平台竞争力。本文分享一个开源b2b2c商城源码的相关知识&#xff0c;并详细介绍其搭…

Vue3入门-指令补充

&#x1f3e0;个人主页&#xff1a;Yui_ &#x1f351;操作环境&#xff1a;vscode\node.js &#x1f680;所属专栏&#xff1a;Vue3 文章目录1. 指令修饰符1.1 按键修饰符1.2 事件修饰符1.3 v-model修饰符2. v-model用在其他表单元素上3. 样式绑定3.1 操作class4. 操作style5.…

UDP类型套接字

理解UDP协议&#xff1a;互联网世界的"明信片"通信 UDP是什么&#xff1f;为什么需要它&#xff1f; 想象一下&#xff0c;你正在给朋友寄送两种不同的东西&#xff1a;一份重要的合同文件和一叠度假时的风景明信片。对于合同文件&#xff0c;你会选择挂号信&#xf…

redis快速入门教程

更新中基本概念安装centOS安装redis&#xff1a;yum install redis -y启动&#xff1a;systemctl start redis设置开机启动&#xff1a;systemctl enable redis检查运行状态&#xff1a;systemctl status redis远程访问编辑配置文件 vi /etc/redis.conf在其中修改为bind 0.0.0.…

UDP和TCP的主要区别是什么

UDP&#xff08;用户数据报协议&#xff09;和 TCP&#xff08;传输控制协议&#xff09;是互联网传输层的两大核心协议&#xff0c;主要区别体现在​​连接方式、可靠性、传输效率、头部开销​​及​​适用场景​​上。以下是具体对比&#xff1a;​​一、核心区别对比表​​​…

ASP .NET Core 8结合JWT轻松实现身份验证和授权

身份验证和授权是每一个后端服务必不可少的&#xff0c;可以实现对非法请求进行拦截&#xff0c;能够有效保护数据的安全性。 JSON Web Token&#xff08;JWT&#xff09;是一项开放标准&#xff08;RFC 7519&#xff09;&#xff0c;它定义了一种紧凑且自包含的方法&#xff…

5G时代的智慧灯杆:塔能“一杆多用”方案如何激活城市新基建?

在《5G应用“扬帆”行动计划》持续推进的进程之中&#xff0c;智慧杆已然成为了5G基站部署环节极为重要的载体&#xff0c;并且被明确地归入到新型基础设施建设的重点范畴之内。相关政策提出&#xff0c;要在2025年达成重点区域5G网络全面且深度覆盖的目标&#xff0c;与此同时…

护照阅读器:国外证件识别的 OCR “解码师”

国外证件版式多样、语种繁杂&#xff0c;人工识别不仅耗时&#xff0c;还易因翻译误差、格式不熟悉导致信息错漏。尤其在跨境业务场景中&#xff0c;传统识别方式严重影响效率与准确性。护照阅读器搭载的 OCR 技术成为破局关键。它能精准提取国外护照、驾照等证件上的多语种文字…

Linux部署Python服务

1、创建项目目录与虚拟环境#确保安装 Python 和 python3-venv 工具 sudo apt update sudo apt install python3 python3-pip python3-venvmkdir myproject cd myproject python3 -m venv venv # 创建虚拟环境#Linux source venv/bin/activate # 激活虚拟环境#Windowds venv\S…

【Python办公】使用Python和Tkinter构建Excel数据导入MySQL工具(GUI版)

目录 专栏导读前言项目概述技术栈环境准备核心代码实现1. 导入必要的库2. 主应用类设计3. 用户界面设计数据库配置区域数据库选择区域4. 数据库连接功能测试连接获取数据库列表5. 数据导入功能关键技术点解析1. SQLAlchemy 2.x 兼容性2. MySQL 8.0 认证问题3. 避免启动时连接错…

华为OD机试_2025 B卷_猜数字(Python,100分)(附详细解题思路)

题目描述 一个人设定一组四码的数字作为谜底&#xff0c;另一方猜。 每猜一个数&#xff0c;出数者就要根据这个数字给出提示&#xff0c;提示以XAYB形式呈现&#xff0c;直到猜中位置。 其中X表示位置正确的数的个数&#xff08;数字正确且位置正确&#xff09;&#xff0c;而…