当前位置: 首页 > news >正文

【深度学习】OCR,CLIP4STR论文,多模态OCR

CLIP4STR:基于预训练视觉语言模型的简单场景文本识别基线

CLIP4STR:基于预训练视觉语言模型的简单场景文本识别基线

摘要

预训练的视觉语言模型(VLMs)已成为各种下游任务的基础模型。然而,场景文本识别(STR)方法仍然倾向于依赖仅在单一模态(视觉模态)上预训练的骨干网络,尽管VLMs具有成为强大场景文本识别器的潜力。例如,CLIP可以稳健地识别图像中的常规(水平)和非规则(旋转、曲线、模糊或被遮挡的)文本。基于这些优点,我们将CLIP转化为场景文本识别器,并介绍了CLIP4STR,这是一个基于CLIP图像和文本编码器的简单而有效的STR方法。它具有两个编码器-解码器分支:视觉分支和跨模态分支。视觉分支基于视觉特征提供初步预测,而跨模态分支通过解决视觉特征和文本语义之间的差异来优化这一预测。为了充分利用这两个分支的能力,我们设计了一个双预测与优化解码方案用于推理。我们从模型规模、预训练数据和训练数据三个方面对CLIP4STR进行了扩展,在11个STR基准上取得了最先进的性能。此外,我们提供了一个全面的实证研究,以增强对CLIP适应STR的理解。我们认为,我们的方法为未来VLMs的STR研究建立了一个简单而强大的基线。

关键词


http://www.mrgr.cn/news/12047.html

相关文章:

  • Python 游戏开发:用 Pygame 打造你的“飞船大战UFO”!
  • WPF 界面缓存优化
  • QMT量化+通道快速,完美结合应对市场!
  • 恒创科技:如何管理和减少Windows服务器 CPU 负载?
  • JVM-类加载器
  • git仓库删除某个历史提交
  • eureka原理与实践简单介绍
  • 删除Vue2残留配置文件解决异常:Cannot find module ‘@vue/babel-plugin-transform-vue-jsx‘
  • bash代码片段snippets
  • Git Record
  • Tower for Mac Git客户端管理软件
  • LabVIEW反编译与源程序加密破解
  • 【docker compose 部署和 go 热部署工具fresh】
  • java之Math类介绍
  • AcWing854. Floyd求最短路
  • zabbix4.0 实现钉钉告警
  • ctfhub-web-SSRF
  • 设计模式 4 建造者模式
  • Linux模拟输入设备
  • EmguCV学习笔记 VB.Net 6.2 轮廓处理