当前位置: 首页 > news >正文

HanLP分词的使用与注意事项

1 概述

HanLP是一个自然语言处理工具包,它提供的主要功能如下:

  • 分词
  • 转化为拼音
  • 繁转简、简转繁
  • 提取关键词
  • 提取短语
  • 提取词语
  • 自动摘要
  • 依存文法分析

下面将介绍其分词功能的使用。

2 依赖

下面是依赖的jar包。

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.8</version>
</dependency>

3 使用

下面demo是往HanLP词典中加入自定义的词和词性。将“国家森林公园”的词性定义为“myCustomWord”。

public static void main(String[] args) {// 往HanLP词典中加入自定义的词和词性CustomDictionary.insert("国家森林公园", "myCustomWord 1");List<Term> termList = HanLP.segment("你好,欢迎来到美丽的大兴安岭国家森林公园");System.out.println(JSON.toJSONString(termList));
}

分词结果如下:

4 注意事项

  • 通过api接口自定义hanlp词典或者自定义词典文件,可以对同一个词设置多个词性
  • 但即使对同一个词设置了多个词性,根据HanLP的模型特征,分词时也只会返回其中一个词性,不会返回多个词性。
  • 另外即使hanlp词典中有多个类似词,分词时也只会返回文本相近词中的一个词

4.1 一个词只会返回一个词性

举例如下,给“国家森林公园” 定义两个词性,分别为:“myCustomWord”,“myCustomWord_new”。但是切词后,对于“国家森林公园”,只返回了一个词性“myCustomWord_new”。

public static void main(String[] args) {// 往HanLP词典中加入自定义的词和词性,一个词设置多个词性CustomDictionary.insert("国家森林公园", "myCustomWord_new 1 myCustomWord 1");List<Term> termList = HanLP.segment("你好,欢迎来到美丽的大兴安岭国家森林公园");System.out.println(JSON.toJSONString(termList));
}

切词后结果如下所示:

4.2 只返回文本相近词中的一个词

案例如下,分词后,只会获取到“国家森林公园”,而没有“森林公园”。

    public static void main(String[] args) {test1();}private static void test1() {// 往HanLP词典中加入自定义的词和词性CustomDictionary.insert("国家森林公园", "myCustomWord 1");CustomDictionary.insert("森林公园", "myCustomWord_common 1");List<Term> termList = HanLP.segment("你好,欢迎来到美丽的大兴安岭国家森林公园");System.out.println(JSON.toJSONString(termList));}

分词后的结果如下所示:

5 参考文献

(1)Hanlp基本使用-CSDN博客


http://www.mrgr.cn/news/2706.html

相关文章:

  • JsSIP Demo
  • 【自动驾驶】控制算法(三)轮胎侧偏与车辆动力学模型
  • MyBatis系列
  • 【adb】Mac配置adb环境踩坑记录
  • java版知识付费saas租户平台:剖析现代知识付费平台的功能架构与运营逻辑
  • Ubuntu下通过Docker部署Synapse服务器技术博客
  • 排序(归并排序,非比较排序)
  • Java面试篇(多线程相关专题)
  • 六、什么是SEO优化(搜索引擎优化)?SPA单页面应用如何实现SEO优化?
  • RCE编码绕过--php://filter妙用
  • Linux驱动开发基础(中断)
  • 【YOLO5 项目实战】(4)红外目标检测
  • [C++] map、set的 红黑树 封装(一)
  • python从入门到精通:数据容器
  • AI -- Machine Learning
  • Python基础:函数
  • 悬浮翻译软件下载哪一个?免费悬浮翻译工具评测
  • 第一批AI原住民开始变现:9岁小学生,用大模型写书赚1个w
  • 开发军用LabVIEW程序注意事项
  • 黑神话悟空对服务器有什么要求