程序员scholar 程序员scholar
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
npm

(进入注册为作者充电)

  • 快速入门

  • 克隆

  • 类型转换

  • 日期时间

  • IO流相关

  • 工具类

  • 语言特性

  • JavaBean

  • 集合类

  • Map

  • Codec编码

  • 文本操作

  • 注解

  • 比较器

  • 异常

  • 数学

  • 线程和并发

  • 图片

  • 网络

  • 源码编译

  • 配置文件

  • 日志

  • 缓存

  • JSON

  • 加密解密

  • DFA查找

  • HTTP客户端

  • 定时任务

  • 扩展

    • Servlet 工具类 - `ServletUtil`
    • 二维码工具 - `QrCodeUtil`
    • 邮件工具 - `MailUtil`
    • Cglib 工具 - `CglibUtil`
    • Emoji 工具 - `EmojiUtil`
    • FTP 客户端封装 - `Ftp`
    • 简易FTP服务器 - `SimpleFtpServer`
    • SFTP封装 - `Sftp`
    • Jsch工具 - `JschUtil`
    • Spring工具 - `SpringUtil`
    • 中文分词封装 - `TokenizerUtil`
      • 1. 介绍
      • 2. 原理
      • 3. 使用
        • 3.1 引入分词库依赖
        • 3.2 自动解析文本并分词
        • 3.3 自定义分词引擎
      • 4. 总结
    • 160压缩封装 - `CompressUtil`
    • 拼音工具 - `PinyinUtil`
    • 表达式引擎封装 - `ExpressionUtil`
    • 模板引擎封装 - `TemplateUtil`
  • 切面

  • 脚本

  • Office文档操作

  • 系统调用

  • 图形验证码

  • 网络Socket

  • JWT

  • Hutoll
  • 扩展
scholar
2024-08-20
目录

中文分词封装 - TokenizerUtil

# 中文分词封装 - TokenizerUtil


# 1. 介绍

在搜索引擎和自然语言处理(NLP)领域,中文分词是非常重要的一环。市面上有多种中文分词库,但它们的使用方式各不相同,增加了学习成本。为了简化分词库的使用,Hutool 对常见的分词库进行了统一封装,通过抽象出统一的接口,隔离不同库之间的差异,实现了在多个分词库之间的无缝切换。

目前,Hutool 支持的分词引擎包括:

  • Ansj (opens new window)
  • HanLP (opens new window)
  • IKAnalyzer (opens new window)
  • Jcseg (opens new window)
  • Jieba (opens new window)
  • mmseg4j (opens new window)
  • Word (opens new window)
  • Smartcn (opens new window)

注意:该工具从 Hutool-4.4.0 开始支持。


# 2. 原理

Hutool 的分词引擎封装基于类似于 Java 日志门面的思想,通过抽象三个概念,实现了不同分词库的统一调用接口:

  • TokenizerEngine:分词引擎,封装了具体的分词库对象。
  • Result:分词结果接口,定义了对文本进行分词后的结果,支持迭代遍历分词结果。
  • Word:表示分词中的一个词,可以获取词语文本、起始位置和结束位置等信息。

Hutool 的 TokenizerFactory 可以根据用户引入的分词库自动选择使用哪种分词引擎,这样用户无需关注具体的分词库,只需调用统一的 API。


# 3. 使用

# 3.1 引入分词库依赖

根据需要选择引入一个或多个分词库,例如:

<!-- 引入 HanLP 依赖 -->
<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>1.7.8</version>
</dependency>
1
2
3
4
5
6

提示:只需引入想要使用的分词库,Hutool 会自动识别并路由到对应的引擎。


# 3.2 自动解析文本并分词

通过 TokenizerUtil 可以自动选择分词库并解析文本。

import cn.hutool.core.collection.CollUtil;
import cn.hutool.extra.tokenizer.TokenizerEngine;
import cn.hutool.extra.tokenizer.TokenizerUtil;
import cn.hutool.extra.tokenizer.Result;
import cn.hutool.extra.tokenizer.Word;

import java.util.Iterator;

public class TokenizerExample {
    public static void main(String[] args) {
        // 自动根据引入的分词库选择引擎
        TokenizerEngine engine = TokenizerUtil.createEngine();

        // 要解析的文本
        String text = "这两个方法的区别在于返回值";

        // 解析文本
        Result result = engine.parse(text);

        // 将分词结果连接为字符串
        String resultStr = CollUtil.join((Iterator<Word>) result, " ");

        // 输出分词结果
        System.out.println(resultStr); // 输出:这 两个 方法 的 区别 在于 返回 值
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

代码解析:

  • TokenizerUtil.createEngine():自动选择合适的分词引擎,基于用户引入的分词库。
  • engine.parse(text):解析文本并返回分词结果 Result 对象。
  • CollUtil.join((Iterator<Word>) result, " "):将分词结果通过空格连接成字符串,便于输出和展示。

实际开发场景:

  • 在需要进行文本分词的场景中,无需关心具体使用的分词库,代码保持统一,方便库的替换和升级。

# 3.3 自定义分词引擎

如果需要手动指定使用的分词库,可以直接实例化对应的引擎。例如,使用 HanLP 引擎:

import cn.hutool.extra.tokenizer.engine.hanlp.HanLPEngine;
import cn.hutool.core.collection.CollUtil;
import cn.hutool.extra.tokenizer.Result;
import cn.hutool.extra.tokenizer.Word;

import java.util.Iterator;

public class CustomEngineExample {
    public static void main(String[] args) {
        // 手动指定使用 HanLP 引擎
        HanLPEngine engine = new HanLPEngine();

        // 要解析的文本
        String text = "这两个方法的区别在于返回值";

        // 解析文本
        Result result = engine.parse(text);

        // 将分词结果连接为字符串
        String resultStr = CollUtil.join((Iterator<Word>) result, " ");

        // 输出分词结果
        System.out.println(resultStr); // 输出:这 两个 方法 的 区别 在于 返回 值
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

代码解析:

  • HanLPEngine:明确指定使用 HanLP 分词引擎,适合在项目中固定使用某个分词库时采用。

实际开发场景:

  • 当项目需求固定使用某个分词库时,可以手动指定引擎,避免自动路由可能带来的不确定性。

# 4. 总结

通过 TokenizerUtil,Hutool 提供了一个统一的中文分词接口,解决了不同分词库的兼容问题。无论使用哪种分词库,开发者都可以通过相同的 API 进行调用,极大地降低了学习成本和代码维护成本。

在分词库升级、切换的场景下,只需调整 Maven 依赖,无需修改核心代码,增强了代码的可扩展性和灵活性。

!

编辑此页 (opens new window)
上次更新: 2024/12/28, 18:32:08
Spring工具 - `SpringUtil`
160压缩封装 - `CompressUtil`

← Spring工具 - `SpringUtil` 160压缩封装 - `CompressUtil`→

Theme by Vdoing | Copyright © 2019-2025 程序员scholar
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式