java 使用HanLP 入门教程

1. 安装 HanLP

Maven 依赖

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.8.4</version> <!-- 最新版本请查看官网 -->
</dependency>

注意：portable 版本内置小型词典，适合基础任务；若需完整功能，需下载完整数据包。

2. 基础功能

(1) 分词

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;public class BasicDemo {public static void main(String[] args) {String text = "你好，欢迎使用HanLP！这是一段测试文本。";// 标准分词List<Term> termList = HanLP.segment(text);System.out.println(termList);// 输出: [你好/vl, ，/w, 欢迎/v, 使用/v, HanLP/nx, ！/w, 这是/r, 一段/m, 测试/vn, 文本/n, 。/w]}
}

(2) 词性标注

HanLP 的分词结果已包含词性（如 n=名词，v=动词）：

for (Term term : termList) {System.out.println(term.word + " : " + term.nature);
}

常用词性标记：

n：名词
v：动词
w：标点符号
nx：外文单词

3. 进阶功能

(1) 关键词提取

import com.hankcs.hanlp.summary.TextRankKeyword;List<String> keywords = HanLP.extractKeyword(text, 5); // 提取前5个关键词
System.out.println(keywords); // 输出: [文本, 测试, HanLP, 欢迎, 使用]

(2) 命名实体识别（NER）

List<Term> termList = HanLP.segment("马云在阿里巴巴工作。");
for (Term term : termList) {if (term.nature.toString().startsWith("nr")) { // nr=人名System.out.println("人名: " + term.word);} else if (term.nature.toString().startsWith("ns")) { // ns=地名System.out.println("地名: " + term.word);}
}
// 输出: 人名: 马云  地名: 阿里巴巴

(3) 自定义词典

// 方式1：临时添加单词
HanLP.Config.CustomDictionaryPath = new String[]{"data/dictionary/custom/CustomDictionary.txt"};
HanLP.Config.enableDebug();// 方式2：动态添加
CustomDictionary.add("量子计算", "n 1024");
CustomDictionary.insert("神经网络", "n 1024");// 使用自定义词典分词
System.out.println(HanLP.segment("量子计算是未来趋势"));
// 输出: [量子计算/n, 是/v, 未来/t, 趋势/n]

4. 高级配置

(1) 切换分词模式

// 极速词典分词（不标注词性）
List<String> fastSegResult = HanLP.segmentFaster(text);// 标准分词（带词性）
List<Term> stdSegResult = HanLP.segment(text);// NLP分词（高精度，需完整数据包）
List<Term> nlpSegResult = HanLP.newSegment().enableNameRecognize(true).seg(text);

(2) 加载完整数据包

下载数据包并解压。
配置 hanlp.properties：
```
root=path/to/hanlp-data
```

5. 完整示例

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import java.util.List;public class HanLPFullDemo {public static void main(String[] args) {String text = "清华大学位于北京市海淀区。";// 分词 + 词性标注List<Term> terms = HanLP.segment(text);System.out.println("分词结果: " + terms);// 命名实体识别terms = HanLP.newSegment().enablePlaceRecognize(true).seg(text);for (Term term : terms) {if (term.nature.toString().startsWith("ns")) {System.out.println("地名: " + term.word);}}// 关键词提取List<String> keywords = HanLP.extractKeyword(text, 3);System.out.println("关键词: " + keywords);}
}

输出：

分词结果: [清华大学/nt, 位于/v, 北京市/ns, 海淀区/ns, 。/w]
地名: 北京市
地名: 海淀区
关键词: [海淀区, 北京市, 清华大学]

6. 常见问题

词典加载失败：检查 hanlp.properties 中的 root 路径是否正确。
内存不足：使用 portable 版本或增加 JVM 内存：-Xms512m -Xmx1024m。
性能优化：对长文本使用 HanLP.segmentFaster()。

官方资源

GitHub
文档

HanLP 功能强大且灵活，适合中文 NLP 的各种场景！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/diannao/86364.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

java 使用HanLP 入门教程

1. 安装 HanLP

Maven 依赖

2. 基础功能

(1) 分词

(2) 词性标注

3. 进阶功能

(1) 关键词提取

(2) 命名实体识别（NER）

(3) 自定义词典

4. 高级配置

(1) 切换分词模式

(2) 加载完整数据包

5. 完整示例

6. 常见问题

官方资源

相关文章

vm虚拟机添加虚拟机无反应，获取所有权

为何选择Spring框架学习设计模式与编码技巧？

MySQL 索引：聚集索引与二级索引

【Elasticsearch】映射：详解 _source store 字段

新建网站部署流程

时序数据库IoTDB结合SeaTunnel实现高效数据同步

k8s业务程序联调工具-KtConnect

RFID推动新能源汽车零部件生产系统管理应用案例

C#封装HttpClient：HTTP请求处理最佳实践

【Redis/2】核心特性、应用场景与安装配置

AI大模型在测试领域应用案例拆解：AI赋能的软件测试效能跃迁的四大核心引擎（顺丰科技）

【HTML】HTML 与 CSS 基础教程

Redis 集群批量删除key报错 CROSSSLOT Keys in request don‘t hash to the same slot

.Net Framework 4/C# LINQ*

【docker】容器技术如何改变软件开发与部署格局

MySQL的优化部分介绍

Go基本语法——go语言中的四种变量定义方法

C++ 对 C 的兼容性

ES6 核心语法手册

react菜单，动态绑定点击事件，菜单分离出去单独的js文件，Ant框架