当前位置: 首页 > news >正文

MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击
导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的


http://www.mrgr.cn/news/10362.html

相关文章:

  • 如何使用Python自动化测试工具Selenium进行网页自动化?
  • <数据集>车内视角行人识别数据集<目标检测>
  • Spring Boot 多数据源配置
  • 注意力机制中的三种掩码技术及其PyTorch实现
  • 张宇36讲+1000题重点强化!保100冲120速刷攻略
  • 设计模式——状态模式
  • 环绕音效是什么意思,电脑环绕音效怎么开
  • plsql表格怎么显示中文 plsql如何导入表格数据
  • [ICLR-24] LRM: Large Reconstruction Model for Single Image to 3D
  • 机器学习:决策树之回归树的原理
  • redis分布式是如何实现的(面试版)
  • 完成客户端/浏览器可以请求到控制层
  • 我的sql我做主!Mysql 的集群架构详解之组从复制、半同步模式、MGR、Mysql路由和MHA管理集群组
  • 8.26算法训练
  • PHP酒店宾馆民宿预订系统小程序源码
  • 力扣2025.分割数组的最多方案数
  • linux内核链表
  • Three 物体(四)
  • Python编码系列—Python中的HTTPS与加密技术:构建安全的网络通信
  • 使用HTML实现贪吃蛇游戏