当前位置: 首页 > news >正文

PDF-Extract-Kit提取PDF数据

链接:
https://github.com/opendatalab/PDF-Extract-Kit

记录一下

首先是clone该项目,
然后新建一个虚拟环境
进入环境,进入项目
https://github.com/opendatalab/PDF-Extract-Kit?tab=readme-ov-file#installation-guide

如果报错没有PIL.Image.LINEAR,就

pip uninstall detectron2
git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2

然后下载模型:

git lfs clone https://huggingface.co/wanderkid/PDF-Extract-Kit

这一步是得到一个文件夹,里面有models文件夹,把models替换到上面clone的项目的models,这样才能有权重。

最后放入pdf文件,run

nohup python pdf_extract.py --pdf ../data/mrag.pdf --output ../output --vis > log.log 2>&1 &

最后提取为json保存

PDF-Extract-Kit输出格式
{"layout_dets": [    # 页中的元素{"category_id": 0, # 类别编号, 0~9,13~15"poly": [136.0, # 坐标为图片坐标,需要转换回pdf坐标, 顺序是 左上-右上-右下-左下的x,y坐标781.0,340.0,781.0,340.0,806.0,136.0,806.0],"score": 0.69,   # 置信度"latex": ''      # 公式识别的结果,只有13,14有内容,其他为空,另外15是ocr的结果,这个key会换成text},...],"page_info": {         # 页信息:提取bbox时的分辨率大小,如果有缩放可以基于该信息进行对齐"page_no": 0,      # 页数"height": 1684,    # 页高"width": 1200      # 页宽}
}{0: 'title',              # 标题1: 'plain text',         # 文本2: 'abandon',            # 包括页眉页脚页码和页面注释3: 'figure',             # 图片4: 'figure_caption',     # 图片描述5: 'table',              # 表格6: 'table_caption',      # 表格描述7: 'table_footnote',     # 表格注释8: 'isolate_formula',    # 行间公式(这个是layout的行间公式,优先级低于14)9: 'formula_caption',    # 行间公式的标号13: 'inline_formula',    # 行内公式14: 'isolated_formula',  # 行间公式15: 'ocr_text'}              # ocr识别结果

http://www.mrgr.cn/news/11669.html

相关文章:

  • 【线程安全】ReentrantLock和synchronized的使用示例——言简意赅
  • [论文笔记] megatron 大模型超参搜索pipeline
  • 博弈论详解 2(SG函数 和 SG定理)
  • 【负载均衡式在线OJ】oj_server模块
  • DNS详解
  • 国际业务产品系统应用架构设计
  • 零工市场小程序应该有什么功能?
  • 没有大海也能冲浪-带你学习尾波冲浪
  • 打卡学习Python爬虫第五天|使用Xpath爬取豆瓣电影评分
  • 流媒体协议分析
  • npm install报错解决记录
  • MySQL空间管理:查询、优化与碎片清理
  • 毕 业 设 计(论 文)远程接入企业网络规划与设计
  • 【Docker】安装Docker环境遇到的坑(VirtualBox)
  • 设计模式之简单工厂模式
  • npm镜像源报错 unexpected token >
  • zotero同步之infiniteCLOUD网盘 WebDAV
  • vue3组件封装系列-表格及分页-第二弹
  • word文档合并样式问题
  • 国产游戏行不行,主要还得“盘”商业模式!