Python进行中文分词

1. jieba库概述

jieba(“结巴”)是Python中最流行的中文分词库,采用基于前缀词典实现的高效分词算法,支持多种分词模式,是中文自然语言处理(NLP)的基础工具。
核心特性

  • 精确模式:试图将句子最精确地切开,适合文本分析
  • 全模式:把句子中所有可以成词的词语都扫描出来,速度非常快但有冗余
  • 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率
  • 支持自定义词典:可添加专业领域词汇提高分词准确度
  • 支持词性标注:可标注分词结果的词性
  • 支持并行分词:利用多核CPU加速分词处理

2. jieba.cut函数

import jieba
seg_list = jieba.cut("这是一个测试文本", cut_all=False)

参数说明

参数类型默认值说明
sentencestr必需待分词的字符串
cut_allboolFalse是否采用全模式
HMMboolTrue是否使用HMM模型
use_paddleboolFalse是否使用PaddlePaddle模型(需额外安装)

返回值
关键点:jieba.cut()返回的是生成器(Generator),不是列表或元组。

这意味着:生成器只能被迭代一次,之后就会耗尽,无法直接索引(如seg_list[0]会报错),无法直接获取长度(如len(seg_list)会报错),内存效率高,适合处理大文本,但需要特别注意使用方式。

3. 使用示例

# 安装
pip install jieba

在这里插入图片描述

import jieba
from collections import Countertext = "本周进行自然语言处理系列文档示例,示例围绕自然语言处理程序。"
words = jieba.cut(text)words_list = list(words)
words_count = Counter(words_list)
words_filter = [word for word, count in words_count.items() if count > 1]print("分词结果:", words_list)
print("词频:", words_count)
print("高频词汇:", words_filter)

在这里插入图片描述

4. 其他常用函数

jieba.lcut(sentence, cut_all=False, HMM=True, use_paddle=False)
功能:与cut()功能相同,但直接返回列表而非生成器,解决了生成器只能迭代一次的问题,便于多次使用分词结果。

jieba.cut_for_search(sentence, HMM=True)
功能:搜索引擎模式分词,对长词再次切分以提高召回率,在精确模式基础上,对未在词典中找到的长词进行二次切分

jieba.posseg.cut(sentence, HMM=True)
功能:提供词性标注功能,基于精确模式分词并标注词性

jieba.add_word(word, freq=None, tag=None)
功能:向分词词典中添加新词
参数:
word:要添加的词语;
freq:词频(可选),用于调整词语切分优先级;
tag:词性(可选)

jieba.load_userdict(file_name)
功能:加载自定义词典文件
文件格式:每行一个词,格式为:词语 词频 词性(词频和词性可选)

jieba.tokenize(sentence, mode=‘default’, HMM=True)
功能:返回词语在原文中的位置信息
参数:mode:‘default’(精确模式)或’search’(搜索引擎模式)
返回值:元组列表,每个元组包含(词语, 起始位置, 结束位置)

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
功能:基于TF-IDF算法提取关键词
参数:
topK:返回关键词数量
withWeight:是否返回权重值
allowPOS:仅提取指定词性的词

jieba.enable_parallel(num)
功能:利用多核CPU加速分词处理,启用并行分词,参数为并行进程数,程序结束可以调用jieba.disable_parallel()关闭并行分词

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919577.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 性能优化实战:从原理到落地的完整指南

一、引言:为什么 JavaScript 性能优化至关重要?性能与用户体验的强关联数据支撑:加载延迟每增加 1 秒,用户转化率下降 7%(来自 Google 研究)核心痛点:现代 Web 应用中 JS 代码体积膨胀、运行时卡…

前端自动化部署

摘要:前端自动化部署是通过工具和流程自动化实现前端代码从开发完成到线上发布的全流程,减少人工操作、提高效率并降低出错风险。核心目标减少重复操作:自动化构建、测试、部署等步骤,替代手动上传服务器等低效方式。提升发布效率…

peewee中db.create_tables(tables, safe=True),safe=True作用

db.create_tables(tables, safeTrue) 中的 safeTrue 参数的作用是 防止在表已经存在的情况下引发错误。 具体来说: 当 safeTrue 时:Peewee 会在生成的 SQL 语句中加入 IF NOT EXISTS 子句(例如:CREATE TABLE IF NOT EXISTS my_tab…

2025年计算机视觉与图像国际会议(ICCVI 2025)

2025年计算机视觉与图像国际会议| 视界创新,图领未来 2025年计算机视觉与图像国际会议(ICCVI 2025)将在中国东莞盛大召开。这不仅是一次汇聚全球顶尖科学家、工程师和学者的盛会,更是一个探索计算机视觉和图像处理领域前沿技术与未…

Temu美国站大规模扫号封店:虚假本土店遭批量封禁,如何规避?

2025年8月,Temu平台针对美国站再次掀起大规模扫号风暴。大量店铺因注册信息违规被判定为“高风险”,不仅店铺被冻结,商品也被下架并禁止补货。这一轮清扫,让不少依靠“资料店”快速起盘的卖家遭遇重创。事实上,Temu的风…

航空发动机叶片yolov8模型训练和转换(包含适配rk3588-pt转onnx转rknn)

前言: 1.训练在windows进行,因为电脑没有显卡,所以纯cpu训练,生成pt后转onnx 2.onnx转需要在Ubuntu虚拟机上运行 3.数据集标定快捷键 (模型训练时不需要)官方地址和下载pt权重:链接&#xff…

PyTorch如何修改模型(魔改)?/替换模型,一般除了注意输入输出一致,还有其他要修改的吗?

一、PyTorch如何修改模型(魔改)? 可以参考这个链接,看了一下还不错: PyTorch如何修改模型(魔改)_模型魔改-CSDN博客 二、替换模型,一般除了注意输入输出一致,还有其他要修改的吗?…

Pycharm Debug详解

Pycharm Debug详解看这个工具栏就是 PyCharm 调试器的“步进/断点”按钮区。常用按钮和作用(从左到右一般是这些): Resume / 继续运行(F9):从当前断点继续跑,直到下一个断点或程序结束。Step Ov…

将SSL配置迁移到Nacos的步骤

将SSL配置迁移到Nacos的步骤 要将SSL配置从本地application.yml迁移到Nacos配置中心,需要完成以下几个步骤: 1. 创建Nacos配置文件 在Nacos中创建一个新的配置文件(例如application-ssl.yml),内容如下: ser…

HTTP请求参数类型及对应的后端注解

在Java后端开发中,HTTP请求的不同部分需要使用不同的注解来处理。以下是四种主要请求参数类型及其对应的Spring注解:1. 请求头(Headers)​​位置​​:HTTP请求的头部信息​​常用场景​​:认证信息(Token)、客户端信息、内容类型等…

服务器硬件电路设计之 SPI 问答(一):解密 SPI—— 从定义到核心特性

在服务器硬件电路设计中,SPI(Serial Peripheral Interface,串行外设接口)是一种关键的通信总线。它由摩托罗拉公司开发,是全双工、同步串行通信总线,主要用于微控制器与外围设备之间的通信,凭借…

【2025CVPR-目标检测方向】OW-OVD:统一的开放世界和开放词汇对象检测

研究背景与动机​ ​问题​:传统目标检测器(封闭集)需预定义所有类别,无法适应动态开放环境。现有研究多独立解决开放词汇检测(OVD)或开放世界检测(OWOD),未结合两者优势: ​OVD​:通过文本-视觉嵌入匹配实现零样本泛化,但无法主动发现未知对象。 ​OWOD​:可主动…

基于Python的就业信息推荐系统 Python+Django+Vue.js

本文项目编号 25011 ,文末自助获取源码 \color{red}{25011,文末自助获取源码} 25011,文末自助获取源码 目录 一、系统介绍二、系统录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状 六、核心代码6.1 查询数据6.2 新…

el-date-picker type=daterange 日期范围限制

html &#xff08;组件&#xff1a;element-ui&#xff09;重点&#xff1a; :picker-options"pickerOptions"<template><el-date-pickerv-model"form.dateRange"type"daterange" value-format"yyyy-MM-dd"range-separator&q…

【38页PPT】关于5G智慧园区整体解决方案(附下载方式)

篇幅所限&#xff0c;本文只提供部分资料内容&#xff0c;完整资料请看下面链接 https://download.csdn.net/download/2501_92808811/91694207 资料解读&#xff1a;《关于5G智慧园区整体解决方案》 详细资料请看本解读文章的最后内容。 智慧园区行业理解与建设目标 智慧园…

Kafka的ISR、OSR、AR详解

Kafka中的ISR、OSR和AR是副本管理机制的核心概念&#xff0c;它们共同保障了Kafka的高可用性和数据一致性。下面我将详细解释这些概念及其相互关系。 1. 基本概念 1.1 AR (Assigned Replicas) - 分配副本 定义&#xff1a;一个分区的所有副本集合称为AR&#xff0c;即Kafka为主…

第一阶段C#基础-13:索引器,接口,泛型

1_索引器&#xff08;1&#xff09;索引器是C#中一个强大而实用的特性&#xff0c;允许像访问数组一样访问类的成员&#xff08;2&#xff09;索引器&#xff1a;一种可以让我们使用索引来访问对象的一种方法&#xff0c;是一组get,set访问器&#xff0c;与属性类似&#xff0c…

SQL-leetcode— 2356. 每位教师所教授的科目种类的数量

2356. 每位教师所教授的科目种类的数量 表: Teacher ----------------- | Column Name | Type | ----------------- | teacher_id | int | | subject_id | int | | dept_id | int | ----------------- 在 SQL 中&#xff0c;(subject_id, dept_id) 是该表的主键。 该表…

基于单片机温控风扇设计/PWM调速风扇/智能风扇

传送门 &#x1f449;&#x1f449;&#x1f449;&#x1f449;其他作品题目速选一览表 &#x1f449;&#x1f449;&#x1f449;&#x1f449;其他作品题目功能速览 概述 该设计基于单片机实现智能温控风扇系统&#xff0c;通过温度传感器实时监测环境温度&#xff0c;…

【datawhale组队学习】RAG技术 - TASK02

教程地址&#xff1a;https://github.com/datawhalechina/all-in-rag/ 感谢datawhale的教程&#xff0c;以下笔记大部分内容来自该教程 文章目录基于LangChain框架的RAG实现初始化设置数据准备索引构建查询与检索生成集成低代码&#xff08;基于LlamaIndex&#xff09;conda ac…