常见的分词算法

常见的分词方法分类如下:

类型名称说明优缺点
1️⃣ 基于空格/标点Word-level以空格或标点划分,如 "Hello, world!" → ["Hello", ",", "world", "!"]✅简单,❌无法处理新词,词表太大
2️⃣ 基于字符Character-level一个字符一个 token,如 "你好" → ["你", "好"]✅通用性好,❌序列太长
3️⃣ 子词级Subword-level
(🔥主流)
通过数据学习出词根、词缀、组合形式,如 "playing" → ["play", "ing"]✅处理 OOV、新词能力强,模型更稳定
4️⃣ 拼音/词干提取特殊任务中使用适合中文/特定语言,或搜索系统✅提升特定语言效果
5️⃣ SentencePiece通用子词分词器(T5、XLNet)不依赖空格,用字符构建词表✅适用于多语言、无空格语言(如中文)


🔥 主流 NLP 模型用的分词方法

模型分词方法工具
BERTWordPiecetransformers 内置
GPT/GPT-2Byte-Pair Encoding (BPE)tokenizers
RoBERTaBPEtokenizers
T5SentencePiecesentencepiece
通义 QwenBPE + 中文词粒度优化阿里自研 tokenizer
Baidu ERNIEWordPiece + 中文增强百度 PaddleNLP
OpenAI GPT-4tiktoken支持 byte-level 分词


🧠 重点解释:三大子词分词方法(subword)

方法原理应用模型
✅ WordPiece从大词拆小(优先匹配最长前缀)BERT、ERNIE
✅ BPE(Byte Pair Encoding)高频字符组合为子词GPT-2、RoBERTa、Qwen
✅ SentencePiece无需空格,支持任意语言,直接从字符训练T5、ALBERT、XLNet

🔍 示例:将 unhappiness 分词

  • WordPiece: ["un", "##happiness"]

  • BPE: ["un", "happi", "ness"]

  • SentencePiece: ["▁un", "happiness"]


🧪 中文分词特别注意:

中文没有空格,不像英文那样天然有“词界限”。

  • 🔸 原始中文可以用 jieba(规则+词典)

  • 🔸 大模型(如 BERT 中文版)用的是字符级 + WordPiece

  • 🔸 最新模型(如通义、百川)会特别训练 tokenizer,更好处理“你是谁” vs “你是 谁”


📦 工具推荐(直接用):

工具库特点
🤗 transformers预训练模型自带 tokenizer
tokenizers更底层,可自定义训练 tokenizer
sentencepiece训练 T5 / BERT tokenizer
jieba中文规则分词,适合快速试验


✨ 总结口诀:

英文分词有空格,中文分词靠模型;WordPiece 拆词根,BPE 合字符;SentencePiece 全自动,不挑语种最灵活。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

湖北理元理律师事务所观察:债务优化如何成为民生安全网

据央行2023年报告,中国家庭债务收入比达137.8%。面对债务高压,湖北理元理律师事务所的实践揭示:专业债务规划的价值不仅是减负数字,更是构建社会稳定的微观防线。 一、从“催收恐惧”到“主动管理”的转变 该所服务数据显示&…

服务器密码安全运维解决新思路:凭据管理SMS+双因素SLA认证结合的方案

引言:云服务器安全成本困局 在云计算渗透率突破60%的今天,中小企业正面临严峻的安全悖论:某权威机构数据显示,72%的云上数据泄露事件源于凭据管理不当,而传统安全解决方案的采购成本往往超过中小企业年利润的8%。这种…

Vision Transformer网络结构

0.前言 参考CSDN大佬(太阳花的小绿豆)的代码,梳理了一下vit的网络结构,代码地址如下: deep-learning-for-image-processing/pytorch_classification/vision_transformer at master WZMIAOMIAO/deep-learning-for-image-processing GitHub …

C++ 图像处理库 CxImage 简介 (迁移至OpenCV)

文章目录 核心功能特点局限性与替代方案常用方法构造函数从数组创建图像访问属性访问像素点Windows平台支持 常用方法迁移至OpenCV CxImage 是一款功能强大的图像处理类库,主要用于 Windows 平台的图像处理任务。它支持多种图像格式的加载、保存、编辑及特效处理&am…

【博客系统】博客系统第十一弹:从零开始在 Linux 系统上搭建 Java 部署环境并部署 Web 项目

搭建 Java 部署环境 JDK 1. 更新软件包 apt 命令详细介绍 sudo apt-get update2. 安装 OpenJDK 查找 JDK 包 apt list | grep "jdk"安装 JDK sudo apt install openjdk-17-jdk注意: 此处安装的是 OpenJDK,OpenJDK 是一个开源版本的 JDK&am…

智能外呼系统中 NLP 意图理解的工作原理与技术实现

智能外呼系统通过整合语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)等技术,实现了自动化的电话交互。其中,NLP 意图理解是核心模块,负责解析用户话语中的语义和意图&…

Sigma-Aldrich胰蛋白酶细胞解离方案速览

Sigma-Aldrich_胰蛋白酶用于细胞培养 细胞解离是细胞传代过程中的一个步骤,即细胞从预处理表面分离,形成悬浮液。这些悬浮液对于传代培养重新接种、细胞计数分析和细胞增殖非常重要。有多种蛋白水解酶可用来从粘附基质上脱离细胞,胰蛋白酶就…

宝塔安装WordPress程序

宝塔安装WordPress程序 一、提前准备1,下载WordPress2,在宝塔创建站点 二、部署项目1,上传下载的wordpress压缩包至创建的项目根目录下并解压 三、wordpress安装1,在浏览器打开创建的网站2,开始按照流程安装配置数据库…

【LangChain】框架解析

目录 🌟 前言🏗️ 技术背景与价值🩹 当前技术痛点🛠️ 解决方案概述👥 目标读者说明 🧠 一、技术原理剖析📊 核心架构图解💡 核心作用讲解🔧 关键技术模块说明⚖️ 技术选…

百度之星2024 初赛第一场 补给

百度之星2024 初赛第一场 补给 题干描述问题分析:C代码Java代码:Python代码补充说明: 题干描述 参考自马蹄集OJ,原文链接1 可怕的战争发生了,小度作为后勤保障工作人员,也要为了保卫国家而努力。 现在有 …

JavaScripts console.log和console.dir区别

console.log 和 console.dir 都是 JavaScript 中用于在浏览器控制台打印信息的方法 ,二者主要有以下区别: 输出内容和格式 console.log:主要用于输出简单的日志信息,直接打印数据的字符串表示 。对于对象、数组等引用类型&#…

uniapp 开发企业微信小程序时,如何在当前页面真正销毁前或者关闭小程序前调用一个api接口

在 UniApp 开发企业微信小程序时,若需在页面销毁或小程序关闭前调用 API 接口,需结合页面生命周期和应用生命周期实现。以下是具体实现方案及注意事项: 一、在页面销毁前调用 API(页面级) 通过页面生命周期钩子 onUnl…

聊聊 Metasploit 免杀

各位小伙伴们,晚上好! 咱们今天打开宵夜“安全食材箱”,聊聊渗透测试绕过杀毒(免杀)的那些门道。你可以把免杀理解为——深夜做宵夜时,家里有人睡觉,但你非得去厨房整点美食,还不能…

Android高级开发第二篇 - JNI 参数传递与 Java → C → Java 双向调用

文章目录 Android高级开发第二篇 - JNI 参数传递与 Java → C → Java 双向调用引言JNI基础回顾JNI中的参数传递基本数据类型传递字符串传递数组传递对象传递 Java → C → Java 双向调用从C/C调用Java方法实现一个完整的回调机制 内存管理与注意事项性能优化提示结论参考资源 …

2025-05-28 Python深度学习8——优化器

文章目录 1 工作原理2 常见优化器2.1 SGD2.2 Adam 3 优化器参数4 学习率5 使用最佳实践 本文环境: Pycharm 2025.1Python 3.12.9Pytorch 2.6.0cu124 ​ 优化器 (Optimizer) 是深度学习中的核心组件,负责根据损失函数的梯度来更新模型的参数,使…

Web攻防-SQL注入增删改查HTTP头UAXFFRefererCookie无回显报错

知识点: 1、Web攻防-SQL注入-操作方法&增删改查 2、Web攻防-SQL注入-HTTP头&UA&Cookie 3、Web攻防-SQL注入-HTTP头&XFF&Referer 案例说明: 在应用中,存在增删改查数据的操作,其中SQL语句结构不一导致注入语句…

Windows MongoDB C++驱动安装

MongoDB驱动下载 MongoDB 官网MongoDB C驱动程序入门MongoDB C驱动程序入门 安装环境 安装CMAKE安装Visual Studio 编译MongoDB C驱动 C驱动依赖C驱动,需要先编译C驱动 下载MongoDB C驱动源码 打开CMAKE(cmake-gui) 选择源码及输出路径,然后点击configure …

使用 C/C++ 和 OpenCV 调用摄像头

使用 C/C 和 OpenCV 调用摄像头 📸 OpenCV 是一个强大的计算机视觉库,它使得从摄像头捕获和处理视频流变得非常简单。本文将指导你如何使用 C/C 和 OpenCV 来调用摄像头、读取视频帧并进行显示。 准备工作 在开始之前,请确保你已经正确安装…

使用微软最近开源的WSL在Windows上优雅的运行Linux

install wsl https://github.com/microsoft/WSL/releases/download/2.4.13/wsl.2.4.13.0.x64.msi install any distribution from microsoft store, such as kali-linux from Kali office website list of distribution PS C:\Users\50240> wsl -l -o 以下是可安装的有…