当前位置: 首页 > news >正文

java 通过文件下载地址读取文件内容

需求:读取文件内容,已知文件下载地址
需要引入pdfbox依赖

<dependency>
<groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.27</version>
</dependency>

@Override
public MesDataRespVO addPasterLabel(PasterLabelReqVO reqVO) {String downloadUrl = "文件下载地址";reqVO.setPaterLabelUrl(downloadUrl);PDDocument document = null;InputStream inputStream = null;try{URL url = new URL(downloadUrl);HttpURLConnection conn = (HttpURLConnection) url.openConnection();// 设置超时时间20秒conn.setConnectTimeout(20 * 1000);inputStream = conn.getInputStream();document = PDDocument.load(inputStream);int pageSize = document.getNumberOfPages();String text = "";// 一页一页读取for (int i = 0; i < pageSize; i++) {// 文本内容PDFTextStripper stripper = new PDFTextStripper();// 设置按顺序输出stripper.setSortByPosition(true);stripper.setStartPage(i + 1);stripper.setEndPage(i + 1);text = stripper.getText(document);System.out.println(text.trim());}}catch (Exception e){log.error(e.getMessage(),e);}finally {try {if (document != null) {document.close();}if(inputStream != null){inputStream.close();}} catch (IOException e) {log.error(e.getMessage(), e);}}return null;
}

http://www.mrgr.cn/news/26042.html

相关文章:

  • CSP 2023 提高级第一轮单项选择题解析
  • linux系统管理面板1panel
  • 配多少?现货黄金个性化投资方案
  • 65. 不用加减乘除做加法【难】
  • 场外个股期权是不是也不会爆仓?
  • python学习第十节:爬虫基于requests库的方法
  • Vue3项目打包报错-内存溢出解决方法
  • 冯·诺依曼结构计算机的优势和劣势
  • windows下ardusub仿真
  • 为什么总是分心?(影响专注力的5因素)
  • LeetCode:2398. 预算内的最多机器人数目 双指针+单调队列,时间复杂度O(n)
  • --- 数据结构 优先级队列 --- java
  • 凯伦股份融合®️TMP复合瓦系统实力硬扛摩羯台风
  • JDBC简介与应用:Java数据库连接的核心概念和技术
  • 会话好友区设计与开发(三)
  • 每日一练 | IPv4简单流分类
  • 反射这些事
  • Spring Boot框架下校园信息管理平台的构建
  • torch.view torch.expand
  • MacOS wine中文乱码问题