Elasticsearch中对文章进行索引和查重

news/2024/5/20 4:27:01

解决思路

要在Elasticsearch中对文章进行索引和查重,可以按照以下步骤操作:

  1. 安装Elasticsearch并启动服务。

  2. 安装Python的Elasticsearch客户端库,可以使用pip install elasticsearch命令进行安装。

  3. 编写Python代码,使用Elasticsearch客户端库对文章进行索引和查重。

示例代码

from elasticsearch import Elasticsearch# 连接到Elasticsearch服务
es = Elasticsearch(["http://localhost:9200"])# 定义要索引的文章
articles = [{"title": "文章1", "content": "这是文章1的内容"},{"title": "文章2", "content": "这是文章2的内容"},{"title": "文章3", "content": "这是文章3的内容"},
]# 对文章进行索引
for article in articles:es.index(index="articles", doc_type="_doc", body=article)# 查询相似度较高的文章
query = {"query": {"more_like_this": {"fields": ["content"],"like": "这是文章1的内容","min_term_freq": 1,"max_query_terms": 12,}}
}# 执行查询
response = es.search(index="articles", body=query)# 输出查询结果
print("相似度较高的文章:")
for hit in response["hits"]["hits"]:print(hit["_source"]["title"])
 

这个示例代码首先连接到Elasticsearch服务,然后定义了三篇文章并对它们进行索引。接下来,我们使用more_like_this查询来查找与给定文章内容相似的文章。最后,输出查询结果。

more_like_this查询

在Elasticsearch中,more_like_this查询用于查找与给定文档相似的文档。它基于文档的文本内容,通过计算文档之间的相似度来返回最相似的文档。

以下是more_like_this查询的基本用法:

  1. 指定要查询的索引和文档类型。
  2. 使用query字段定义查询条件,其中包含more_like_this查询。
  3. more_like_this查询中,需要指定要比较的字段(通常是文本类型的字段),以及要与之比较的文档。
  4. 可以设置其他参数,如最小词频(min_term_freq)、最大查询词数(max_query_terms)等,以控制相似度计算的方式。

 

{"query": {"more_like_this": {"fields": ["title", "content"],"like": "这是一个示例文档","min_term_freq": 1,"max_query_terms": 12}}
}

在这个示例中,我们指定了要查询的索引和文档类型(省略了这些部分,因为它们是通用的)。然后,我们在more_like_this查询中指定了要比较的字段(titlecontent),以及要与之比较的文档(这是一个示例文档)。我们还设置了最小词频为1,最大查询词数为12。

执行这个查询后,Elasticsearch会返回与给定文档相似的文档列表。


http://www.mrgr.cn/p/23776234

相关文章

单体到微服务架构的涅槃重生之路?

在技术演进的历史长河中,单体架构曾是众多项目的起点,但随着业务需求日益复杂,微服务架构凭借其灵活性和可扩展性逐渐成为新宠。行业内对此有着激烈的讨论,尤其是互联网大厂和行业技术大佬们对微服务架构的看法颇具影响力。在技术演进的历史长河中,单体架构曾是众多项目的…

Django Admin后台管理:高效开发与实践

title: Django Admin后台管理:高效开发与实践 date: 2024/5/8 14:24:15 updated: 2024/5/8 14:24:15 categories:后端开发tags:DjangoAdmin 模型管理 用户认证 数据优化 自定义扩展 实战案例 性能安全第1章:Django Admin基础 1.1 Django Admin简介 Django Admin是Django框架自…

[数据结构]————排序总结——插入排序(直接排序和希尔排序)—选择排序(选择排序和堆排序)-交换排序(冒泡排序和快速排序)—归并排序(归并排序)

文章涉及具体代码gitee: 登录 - Gitee.com 目录 1.插入排序 1.直接插入排序 总结 2.希尔排序 总结 2.选择排序 1.选择排序 ​编辑 总结 2.堆排序 总结 3.交换排序 1.冒泡排序 总结 2.快速排序 总结 4.归并排序 总结 5.总的分析总结 1.插入排…

二进制转为HEX数组小工具

在使用RA8889时,JPG的解码只能从FLASH的DMA通道获取,那么如果要从远端、或者SD卡等处读取JPG图片出来显示怎么办? RA8889支持JPG图片硬解码,但数据流是从FLASH进行DMA读取的,然后再进行解码。因此这种情况下&#xff…

redis自学(42)Lua语法

接下来要实现Nginx的本地缓存,而Nginx是用Lua语言来开发,下面简单理解一下Lua初始Lua Lua是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放,其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。 安装,centOS自带Lua语言了,不需要安装…

Stable-Diffusion ControlNet插件 DWPose模型下载及使用

webui Version: v1.9.3 DWPose项目地址: https://huggingface.co/yzd-v/DWPose 国内镜像: https://gitee.com/hf-models/DWPose 先安装 git-lfs,下载git仓库大文件会用到 文档: https://help.gitee.com/enterprise/code-manage/code-hosting/large-file-manage/git-lfs 然后确保…

力扣437. 路径总和 III

Problem: 437. 路径总和 III 文章目录 题目描述思路复杂度Code 题目描述 思路 1.定义int类型函数rootSum(root, targetSum),用于求取每一个节点等于目标函数的路径数: 1.1.易知rootSum(root, targetSum)求出的数量等于rootSum(root.left, targetSum - va…

ISCC线上赛2023

ISCC线上赛2023 web web1双重base解码得到flag web3 F12控制台查看可找到loveStory.php Enc.php download.php,loveStory.php为反序列源码 boy::__destruct() -->girl()::__call()-->helper()::__isset()-->boy()::__toString()-->helper()::__get()-->love_st…

python教程6.4-excel处理模块

第三方开源模块安装 创建文件打开已有文件写数据选择表保存表遍历表 按行遍历按列遍历遍历指定行列遍历指定第几列数据删除表设置单元格样式字体对齐设置行高列宽

无处不在的AI:被科技巨头盯上的Agent智能体的崭新时代

🥽一.Agent AI智能体 Agent AI 智能体是一种基于人工智能技术的智能代理,它可以自主地执行任务、与环境进行交互,并根据环境的变化做出决策。 OpenAI将AI Agent定义为以大语言模型(LLM)为大脑驱动具有自主理解、感知、…

24/05/08 图论

能做的仍然只有 stO Liuhl_weifang Orz。\(\color{purple}(1)\) CF746G New Roads构造一棵 \(n\) 个点的深度为 \(t\) 的树,以 \(1\) 为根,使其中深度为 \(i\) 的点有 \(a_i\) 个且叶节点有 \(k\) 个。或报告无解。 \(t, k \le n \le 2 \times 10^5\)。为了方便,我们令根节点…

Rust开发工具有哪些?

目录 一、JetBrains公司的RustRover​编辑 二、微软公司的Visual Studio Code 三、Rust编译工具 一、JetBrains公司的RustRover RustRover是由JetBrains开发的一款专为Rust开发量身定制的新兴IDE,目前还处于早期访问阶段。它支持Rust、Cargo、TOML、Web和数据库等…

2024-05-08:用go语言,给定一个由正整数组成的数组 nums, 找出数组中频率最高的元素, 然后计算该元素在数组中出现的总次数。 输入:nums = [1,2,2,3,1,4]。 输出:4。

2024-05-08:用go语言,给定一个由正整数组成的数组 nums, 找出数组中频率最高的元素, 然后计算该元素在数组中出现的总次数。 输入:nums = [1,2,2,3,1,4]。 输出:4。 答案2024-05-08: chatgpt 题目来自leetcode3005。 大体步骤如下: 1.创建一个空的字典 cnt 用于存储每个…

报错:Error: Cannot find module

报错详情: 解决方法: 1、正确安装版本号的nodejs 2、删除项目根文件夹下的node_modules和“package-lock.json”, 3、重新执行npm install

上课学习(无线网络)

考红色部分:如什么协议采用集中式架构

UG NX二次开发(C#)-获取Part中对象创建时的序号(*)

文章目录 1、前言2、UG NX的对象序号讲解3、采用UG NX二次开发或者建模序号4、注意事项1、前言 在UG NX中,我们创建任意一个对象,都会在模型历史中添加一个创建对象的编号,即是对象序号,这个是递增的,当删除中间产生的对象时,其序号会重新按照建模顺序重新排布。今天一个…

2024CVPR_Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion(CFWD)

一、Motivation 1、单模态监督问题:大多数方法往往只考虑从图像层面监督增强过程,而忽略了图像的详细重建和多模态语义对特征空间的指导作用。这种单模态监督导致不确定区域的次优重建和较差的局部结构,导致视觉结果不理想的出现。------》扩散模型缺乏有效性约束,容易出现…

PDF批量编辑技巧:高效PDF转txt批量处理,轻松管理大量文档

随着信息技术的飞速发展,文档管理已成为日常工作中不可或缺的一部分。特别是当我们需要处理大量的PDF文件时,如何高效地进行编辑、转换和管理成为了一个重要的问题。本文将介绍一些PDF批量编辑的技巧,特别是如何将PDF批量转换为txt格式&#…

Redis单机安装

1.编译 cd redis安装目录 makemake install2.修改配置文件redis.conf #端口修改 port 6379 #后台进程启动 yes daemonize yes # daemonize no #注释掉 为了可以远程连接 #bind 127.0.0.1 #设置密码 requirepass pwd3.启动 ./redis-server ../redis.conf查看进程 [rootlocal…

『ZJUBCA Collaboration』WTF Academy 赞助支持

非常荣幸宣布,浙江大学区块链协会收到WTF Academy的赞助与支持,未来将共同开展更多深度合作。 WTF Academy是开发者的Web3开源大学,旨在通过开源教育让100,000名开发者进入到Web3。截止目前,WTF开源教程在GitHub收获超15,000 ⭐&a…