当前位置: 首页 > news >正文

文件内容提取:Apache Tika 2.9.2

提取各种文件的文本内容,offic image zip 等等…

Apache Tika 2.9.2 、 jdk8

基础 pom.xml

<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
<dependency><groupId>org.apache.tika</groupId><artifactId>tika-core</artifactId><version>2.9.2</version>
</dependency>
<dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers-standard-package</artifactId><version>2.9.2</version>
</dependency>

还需要用到的 pom.xml

<dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId>
</dependency>
<dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.17.0</version>
</dependency>
<dependency><groupId>org.apache.commons</groupId><artifactId>commons-compress</artifactId><version>1.26.2</version>
</dependency>
  • 注意版本号,不然会出问题

java demo

@Test
public void test() throws Exception {InputStream inputStream = Files.newInputStream(Paths.get("text.zip"));BodyContentHandler contentHandler = new BodyContentHandler(-1);Metadata metadata = new Metadata();ParseContext parseContext = new ParseContext();new AutoDetectParser().parse(inputStream, contentHandler, metadata, parseContext);// 提取出来的内容System.out.println(contentHandler);System.out.println("-------------------------------------------");// 元数据信息String[] names = metadata.names();for (String name : names) {System.out.println(name + ":" + metadata.get(name));}
}

http://www.mrgr.cn/news/45585.html

相关文章:

  • 有哪些工具可以辅助特定方法来提升DFT ATPG的coverage?
  • 26.删除有序数组中的重复项
  • vue3 对 vue2 有什么优势
  • 计组体系软考题2-计算机组成原理与计算机体系结构概论
  • Spring JDBC - Spring JDBC模版使用
  • 【C语言】指针和数组的内存使用详解
  • 【漏洞复现】飞企互联 FE企业运营管理平台 treeXml.jsp SQL注入漏洞
  • [SAP ABAP] INCLUDE程序创建
  • 时序论文17|ICML24 SAMformer:华为新奇视角讨论Transformer时序预测时的收敛优化问题
  • opencv学习:利用帧差法实现对视频移动物体的识别、帧差法的优缺点及完整代码实现
  • 可以自动点击网页按钮的 Chrome 插件(manifest_v3 20241008)
  • C语言复习题
  • 一分钟掌握 Java21 新特性
  • AOP(面向切面编程)
  • Java中的五种引用类型
  • [NewStar2024]
  • 在spring boot项目中使用Spring Security的BCryptPasswordEncoder类进行相同密码不同密文的加密和验证
  • tensorflow快速入门--如何定义张量、定义网络结构、超参数设置、模型训练???
  • 机器学习初步【1】
  • YOLO11改进|注意力机制篇|引入MSCA注意力机制