当前位置: 首页 > news >正文

个人随想-一个有意思的鼠标截屏RAG

在这里插入图片描述

multi-model rag现在的技术已经比较成熟了,我们也落地了很多公司的rag和agent项目。今天先不说项目落地,今天给大家分享一个有意思的需求。

广州的一家公司,当我们rag搭建完成后,他们的一个产品经理提了一个需求。他们说,虽然你们的应用,可以通过打字,语音和上传图片实现rag,但是还不是很方便。他说,我们很多时候浏览的都是pdf或者一些加密的信息,这些加密的信息,我是不能复制粘贴的,也就没有办法把文字内容直接复制到我的聊天框,截图再上传,也太麻烦了。

我说,这很简单啊,现在qq、微信的截图,都自带ocr识别功能,能把图片的内容,直接给你识别出来,然后你再复制到聊天框不就行了?

他说,这还是比较麻烦。我是希望,我直接截图,你这里直接调用rag或者agent,也就是,屏幕截图接入大模型。比如:我截图一个复杂的公式,你直接帮我翻译出来。我截图一个数学问题,你直接给我计算出答案。我截图一个内容,你直接调用rag给我找到知识库的内容并总结,等等把。

不知道大家有没有听懂他的意思。

不可否认,这人真的是个人才。。。一般人还真想不出来。现在截图功能,已经越来越普及, 一个截图,不需要保存截图,然后找到这个截图,再发送给大模型,而是我一个截图,直接调用大模型,这个产品经理,确实让我刮目相看。

ok,开干。
系统接入,比较简单,加入一个屏幕截图快捷键,第一版,我们直接mss+image+imageTK+bytesIO,搞定,通过鼠标监听、获取选定区域、将图像保存到内存中。

接下来,我们会在截屏旁边,提供rag和agent入口,它可以选择要执行的操作,如果是rag,我们就会调用chatprompttemplete+ocr这个image的内容,发送到agent,同时带上图片的原始值,做multi-model的rag。如果用户选择的是agent,会默认预定义几个agent给他用,比如:计算、解释等(记得前一节我们说的,限定agent范围)。

ok,搞定。我们觉得还行,接下来,用户继续提需求,你这个屏幕截图快捷键,很多员工不想重新设置,就想用微信电脑版的截图,比如alt+A,也要达到截图不保存,直接发大模型。。。

ok,我们继续做,具体怎么做的,怎么跟客户沟通的,等我们做好了,再跟大家分享。

所以,跟传统软件开发一样,用户的需求,真的是千奇百怪,但是还是一句话,如果真的是可以解决业务痛点的问题,就大家一起努力干吧。

关注我,每天带你开发一个AI应用。

每周二四六直播,欢迎多多交流。
在这里插入图片描述


http://www.mrgr.cn/news/21591.html

相关文章:

  • Spring-循环依赖
  • SIGMOD-24概览Part2: Industry Session (Query Engines)
  • Springboot工程配置https访问
  • 英文翻译工具怎么选?这4款值得收藏。
  • gpedit.msc本地组策略编辑器,结果发现竟然打不开了
  • sunxi-fel 的相关命令
  • 文本分类场景下微调BERT
  • 类和对象的概述以及this指针的应用
  • Python基础—Python 中pip的8个必备命令
  • 力扣最热一百题——最大子数组和
  • 最新版 | 深入剖析SpringBoot3源码——分析自动装配原理(面试常考)
  • 超级 密码加密 解密 源码,支持表情,符号,数字,字母,加密
  • SpringBoot登录退出|苍穹外卖登录退出分析
  • yolov8 pt转onnx
  • Java并发:互斥锁,读写锁,Condition,StampedLock
  • 26 线性表 · 顺序表
  • 146. LRU 缓存
  • 11.2.软件系统分析与设计-数据库分析与设计
  • Rust使用之【宏】
  • C# 如何同时Ping多个IP地址