ik分词器是什么,有那些配置? ik_smart和ik_max_word的两个分词算法有何区别?

news/2024/5/5 0:18:27

1、ik分词器是什么,有那些配置?

1、ik分词器是什么?

IK分词器是一种基于正向匹配的分词算法,它是中文自然语言处理中的一个基本环节。在搜索时,IK分词器会把用户的信息以及数据库或索引库中的数据进行分词,然后进行匹配操作。IK分词器提供了两个分词算法:ik_smart和ik_max_word。其中,ik_smart为最少切分,而ik_max_word为最细粒度划分。

2、IK分词器的配置

关于IK分词器的配置,首先需要在Elasticsearch中安装IK分词器插件,并按照安装文档进行安装。安装完成后,在Elasticsearch的配置文件中,可以将分词器配置为默认分词器或者特定字段的分词器。例如,在index的mappings中可以对特定字段设置分词器。

当IK分词器配置并安装完成后,就可以在Elasticsearch中使用它来进行分词。这包括在创建索引时使用IK分词器对中文字段进行分词,以及在查询时使用IK分词器对搜索词进行分词后再进行搜索。

2、ik_smart和ik_max_word的两个分词算法有何区别?

IK分词器的两个分词算法,ik_smart和ik_max_word,主要存在以下区别:

1、分词粒度:

ik_smart被称为智能分词,它主要做最粗粒度的拆分,而ik_max_word则被称为最细粒度划分。例如,对于文本“中华人民共和国国歌”,ik_smart可能会将其拆分为“中华人民共和国”和“国歌”,而ik_max_word则会尽可能穷尽所有可能的组合,如“中华人民共和国”、“中华人民”、“中华”、“华人”、“人民共和国”、“人民”、“人”、“民”、“共和国”、“共和”、“和”、“国国”、“国歌”等。

2、分词次数与字重复:

ik_smart在分词时,每个字在句子里只会出现一次。而ik_max_word则允许句子的字反复出现,只要这些字在词库中出现过,就会被拆分出来。

3、歧义识别:

ik_smart添加了歧义识别功能,这使得它在处理一些具有歧义的词汇时,能够给出更准确的分词结果。

总的来说,ik_smart和ik_max_word的主要区别在于其分词粒度和处理方式。在实际应用中,可以根据具体的分词需求来选择合适的算法。


http://www.mrgr.cn/p/32071238

相关文章

什么样的文件传输调度产品 可以简化IT工作流程?

文件传输调度是企业数据管理中的一个重要环节,企业在存在多个分支机构、子公司,或者多个数据中心、服务器节点的时候,都会需要进行文件传输调度,在使用传统的FTP、rsync等传输方式在应对这些复杂的文件交换需求时,会存在诸多问题及挑战。 1、缺乏自动化策略:无法实现实时…

机械臂模型更换成自己的urdf模块

1.将urdf生成slx文件 smimport(rm_65_flange.urdf);%生成Simscape物理模型 2.更换joint部分(对应与几个输入几个输出)(依次更换) 3.更改关节部分(依次更换) 找到urdf文件夹下的meshes文件夹,看…

利用VS(Visual Studio)自带的工具查看DLL文件相关信息

装完VS后,就可以使用其自带的dumpbin命令来查看DLL文件的信息,首先在开始菜单中打开VS的Developer Command Prompt命令窗打开后,输入dumpbin后,按 Enter,会显示dumpbin的使用参数查看DLL文件的方法有两种: 1.使用dumpbin命令:dumpbin /exports C:\Users\Administrator\D…

代码随想录算法训练营DAY36|C++贪心算法Part.5|435.无重叠区间、763.划分字母区间、56. 合并区间

文章目录 435.无重叠区间按右边界排序CPP代码 按左边界排序如何判断相邻区间是否重叠如何判断一下一个区间与当前相邻区间是否重叠总结CPP代码 763.划分字母区间思路伪代码实现CPP代码 56. 合并区间思路CPP代码 435.无重叠区间 力扣题目链接 文章链接:435.无重叠区间…

软件测试之【软件测试概论三】

读者大大们好呀!!!☀️☀️☀️ 🔥 欢迎来到我的博客 👀期待大大的关注哦❗️❗️❗️ 🚀欢迎收看我的主页文章➡️寻至善的主页 文章目录 前言测试用例的前因后果测试用例的设计方法黑盒测试用例设计方法&#x1f525…

图像处理的基本操作

一、PyCharm中安装OpenCV模块 二、读取图像 1、基本语法 OpenCV提供了用于读取图像的imread()方法,其语法如下: image cv2.imread(filename,flags) (1)image:是imread方法的返回…

基于Flask的岗位就业可视化系统(四)

前言 本项目综合了基本数据分析的流程,包括数据采集(爬虫)、数据清洗、数据存储、数据前后端可视化等 推荐阅读顺序为:数据采集——>数据清洗——>数据库存储——>基于Flask的前后端交互,有问题的话可以留言…

实验 1--SQL Server2008数据库开发环境

文章目录 实验 1--SQL Server2008数据库开发环境2.4.1 实验目的2.4.2 实验准备2.4.3 实验内容1.利用 SSMS 访问系统自带的Report Server 数据库。2.熟悉了解 SMSS对象资源管理器树形菜单相关选择项的功能。(1)右键单击数据库Report Server,查看并使用相关功能;(2)选…

详解数仓的向量化执行引擎

本文介绍了GaussDB(DWS)向量化执行引擎,对其框架、原理、各算子概况、性能提升等做了详细阐述。本文分享自华为云社区《GaussDB(DWS)向量化执行引擎详解》,作者: yd_212508532。 前言适用版本:【基线功能】传统的行执行引擎大多采用一次一元组的执行模式,这样在执行过程中…

安全机密管理:Asp.Net Core中的本地敏感数据保护技巧

前言 在我们开发过程中基本上不可或缺的用到一些敏感机密数据,比如SQL服务器的连接串或者是OAuth2的Secret等,这些敏感数据在代码中是不太安全的,我们不应该在源代码中存储密码和其他的敏感数据,一种推荐的方式是通过Asp.Net Core的机密管理器。 机密管理器在 ASP.NET Core…

【机器学习算法】决策树和随机森林在计算机视觉中的应用

前言 决策树和随机森林在计算机视觉中有着广泛的应用。决策树作为一种简单而强大的分类模型,可以用于图像分类、目标检测、特征提取等任务。它能够根据图像的特征逐层进行判断和分类,从而实现对图像数据的智能分析和理解。随机森林作为一种集成学习方法&…

❤️新版Linux零基础快速入门到精通——第一部分❤️

❤️新版Linux零基础快速入门到精通——第一部分❤️ 非科班的我!Ta!还是来了~~~1. 来认识一下Linux吧!1.1 操作系统概述1.1.1 操作系统概述1.1.2 操作系统的发展史1.1.2.1 Unix1.1.2.2 Minix1.1.2.3 Linux 1.1.3 操作系统的发展 1.2 Linux初识1.2.1 Lin…

android脱壳:一种使用native进行抽取壳脱壳的方法,native版本的frida-fart

前言 写rxposed的时候,搞了很多模块,其中有一个远程调用脱壳的,但是当时使用的是rmi远程调用,因为一些问题无法使用,可能是对抗问题,也有可能是技术问题,所以我又换了一种远程调用方式。 概述…

视频批量采集下载软件|短视频爬虫提取工具

一款短视频批量下载工具,为用户提供了便捷高效的视频获取解决方案。与市面上其他工具不同的是,工具不仅支持单个视频链接提取,更可通过关键词进行批量搜索,满足用户多样化的需求,实现视频下载的一键快捷操作。 操作简单…

Flink CDC详解

文章目录 Flink CDC一 CDC简介1.1 CDC定义1.2 CDC应用场景1.3 CDC实现机制1.4 开源CDC工具对比 二 Flink CDC简介2.1 Flink CDC介绍2.2 Flink CDC Connector(连接器)2.3 Flink CDC && Flink版本2.4 Flink CDC特点 三 Flink CDC发展3.1 发展历程3.2 背景Dynamic Table &…

七天.NET 8操作SQLite入门到实战 - (2)第七天Blazor班级管理页面编写和接口对接

前言 上一章节我们引入BootstrapBlazor UI组件完成了EasySQLite后台界面的基本架子的搭建,本章节的主要内容是Blazor班级管理页面编写和接口对接。 七天.NET 8 操作 SQLite 入门到实战详细教程第一天 SQLite 简介 第二天 在 Windows 上配置 SQLite 环境 第三天 SQLite 快速入门…

BOS协同开发平台打开方案或者刷新列表时异常报错

在应用开发方案更新SVN也偶发性出现无法访问金蝶SVN路径原因: 有线网络适配器配置的DNS域名是8.8.8.8 解放方案:修改有线网络适配器DNS域名,如下截图

面试遇到算法题:实现LRU缓存

请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。 这是一道大厂面试高频出现的算法题,难度为⭐️⭐️⭐️,属于中等,老铁们来一起看看这个题该怎么解? 1. 原题再现 没有废话,翠花,上酸菜&…

数据结构系列-堆排序当中的T-TOK问题

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 之前我们讲到了堆排序的实现逻辑,那么接下来我们重点关注的就是其中的T-TOK问题 T-TOK说简单点,就是说,假如有10000个数据(随机的…

揭开ChatGPT面纱(3):使用OpenAI进行文本情感分析(embeddings接口)

文章目录 一、embeddings接口解析二、代码实现1.数据集dataset.csv2.代码3.运行结果 openai版本1.6.1 本系列博客源码仓库:gitlab,本博客对应文件夹03 在这一篇博客中我将使用OpenAI的embeddings接口判断21条服装评价是否是好评。 首先来看实现思路&am…