Excel文件解析---超大Excel文件读写

news/2024/5/21 4:33:57

1.使用POI写入
当我们想在Excel文件中写入100w条数据时,使用XSSFWorkbook进行写入时会发现,只有将100w条数据全部加载到内存后才会用write()方法统一写入,效率很低,所以我们引入了SXXFWorkbook进行超大Excel文件读写。

通过设置 SXXFWorkbook 的构造参数,可以设置每次在内存中保持的行数,当达到这个值的时候,那么会把这些数据flush 到磁盘上,这样就不会出现内存不够的情况。

package com.ztt.Demo02;import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Date;
import java.util.UUID;import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;public class demo07 {public static void main(String[] args) {try (SXSSFWorkbook workbook = new SXSSFWorkbook(100);FileOutputStream fos = new FileOutputStream("D:\\test\\tt\\temp.xlsx")){Sheet sheet1 = workbook.createSheet();for (int i = 0; i <= 1000000; i++) {Row row = sheet1.createRow(i);Cell cell0 = row.createCell(0);cell0.setCellValue(UUID.randomUUID().toString());Cell cell1 = row.createCell(1);cell1.setCellValue( new Date());}workbook.write(fos );}catch (IOException e) {e.printStackTrace();}}
}

2.使用EasyExcel写入

        使用EasyExcel,我们首先要导入相关jar包

准备一个普通的Order类:

public class Order {private String orderId;private Double payment;public Order() {this.orderId=LocalDateTime.now().format(DateTimeFormatter.ofPattern("yyyyMMddHHmmss"))+UUID.randomUUID().toString().substring(0,5);this.payment=Math.random()*1000;}public String getOrderId() {return orderId;}public void setOrderId(String orderId) {this.orderId = orderId;}public Double getPayment() {return payment;}public void setPayment(Double payment) {this.payment = payment;}@Overridepublic String toString() {return "Order [orderId=" + orderId + ", payment=" + payment + "]";}
}

  我们发现,Order类中的成员变量名就是我们生成的Excel文件中的列头。那么如果我们想自定义列头时,我们可以用:@ExcelProperty("列头名") 

然后我们来通过EasyExcel来将100w条数据写入excel文件:

package com.ztt.demo01;import java.util.ArrayList;
import java.util.List;
import java.util.Map;import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.context.AnalysisContext;
import com.alibaba.excel.event.AnalysisEventListener;public class Test1 {public static void main(String[] args) {//将100w条订单数据写入Excel文件
//		EasyExcel.write("D:\\test\\poi\\alibaba\\0421-a.xlsx",Order.class)
//		.sheet("订单数据")
//		.doWrite(createOrderData());//读取Excel文件中的数据//参数1:文件的的路径//参数2:文件中每条数据对应的Class类型//参数3:如何解析EasyExcel.read("D:\\test\\poi\\alibaba\\0421-a.xlsx",Order.class,new AnalysisEventListener<Order>() {//读取列头@Overridepublic void invokeHeadMap(Map<Integer, String> headMap, AnalysisContext context) {System.out.println("Excel文件的列头:"+headMap);}//处理每行数据@Overridepublic void invoke(Order order, AnalysisContext arg1) {System.out.println("读取到一条订单数据:"+order);}@Overridepublic void doAfterAllAnalysed(AnalysisContext arg0) {System.out.println("读取完毕");}}).sheet().doRead();}//生成100w条订单数据private static List<Order> createOrderData() {List<Order> orderList=new ArrayList<Order>();for(int i=0;i<1000;i++) {orderList.add(new Order());}return orderList;}
}

当我们想加入一列日期数据时:

public class Order {@ExcelProperty("订单编号")private String orderId;@ExcelProperty("支付金额")private Double payment;@ExcelProperty("创建时间")private LocalDateTime  creatTime;public Order() {this.orderId=LocalDateTime.now().format(DateTimeFormatter.ofPattern("yyyyMMddHHmmss"))+UUID.randomUUID().toString().substring(0,5);this.payment=Math.random()*1000;this.creatTime=LocalDateTime.now();}public String getOrderId() {return orderId;}public void setOrderId(String orderId) {this.orderId = orderId;}public Double getPayment() {return payment;}public void setPayment(Double payment) {this.payment = payment;}public LocalDateTime getCreatTime() {return creatTime;}public void setCreatTime(LocalDateTime creatTime) {this.creatTime = creatTime;}@Overridepublic String toString() {return "Order [orderId=" + orderId + ", payment=" + payment+ ", creatTime=" + creatTime + "]";}
}

运行结果: 

通过阅读报错提示(Can not find 'Converter' support class LocalDateTime.) ,我们大概可以知道,是因为找不到一个支持LocalDateTime类的转换器,所以为了解决这个问题,我们可以自己写一个比较器类:

package com.ztt.demo01;import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;import com.alibaba.excel.converters.Converter;
import com.alibaba.excel.enums.CellDataTypeEnum;
import com.alibaba.excel.metadata.CellData;
import com.alibaba.excel.metadata.GlobalConfiguration;
import com.alibaba.excel.metadata.property.ExcelContentProperty;public class LocalDateTimeConverter implements Converter<LocalDateTime>{//Excel文件中的类型@Overridepublic CellDataTypeEnum supportExcelTypeKey() {return CellDataTypeEnum.STRING;}//程序中的类型@Overridepublic Class supportJavaTypeKey() {return LocalDateTime.class;}//将LocalDateTime类型的数据转换成String类型的数据//并封装至一个Excel文件中的ellData@Overridepublic CellData convertToExcelData(LocalDateTime value, ExcelContentProperty arg1, GlobalConfiguration arg2)throws Exception {return new CellData<>(value.format(DateTimeFormatter.ofPattern("yyyy年MM月dd日 HH:mm:ss")));}//从ce1lData中获取一个String类型的致据//并转换成LocalDateTime类型@Overridepublic LocalDateTime convertToJavaData(CellData cellData ,ExcelContentProperty arg1, GlobalConfiguration arg2)throws Exception {return LocalDateTime.parse(cellData.getStringValue(),DateTimeFormatter.ofPattern( "yyyy年MM月dd日 HH:mm:ss"));}}

当我们写好这个比较器后,就需要给成员变量creatTime显示的设置好比较器:

package com.ztt.demo01;import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;
import java.util.UUID;import com.alibaba.excel.annotation.ExcelProperty;
import com.alibaba.excel.annotation.format.NumberFormat;public class Order {@ExcelProperty("订单编号")private String orderId;//订单编号@ExcelProperty("支付金额")@NumberFormat("¥#,###")private Double payment;//支付金额//设置LocalDateTime对应转换器@ExcelProperty(value="创建时间",converter=LocalDateTimeConverter.class)private LocalDateTime createionTime;//创建日期public Order() {this.orderId=LocalDateTime.now().format(DateTimeFormatter.ofPattern("yyyyMMddHHss"))+UUID.randomUUID().toString().substring(0,5);this.payment=Math.random()*10000;this.createionTime=LocalDateTime.now();}public String getOrderId() {return orderId;}public void setOrderId(String orderId) {this.orderId = orderId;}public Double getPayment() {return payment;}public void setPayment(Double payment) {this.payment = payment;}public LocalDateTime getCreateionTime() {return createionTime;}public void setCreateionTime(LocalDateTime createionTime) {this.createionTime = createionTime;}@Overridepublic String toString() {return "Order [orderId=" + orderId + ", payment=" + payment + ", createionTime=" + createionTime + "]";}}

运行结果:

练习:检查Excel文件 

1.序号是否连续

2.检查性别是否为男或女

3.身份证号

        3.1 身份证号码格式(必须为18位)

        3.2 身份证号码不能重复

        3.3 身份证号码开头两位是否与籍贯符合

                北京 11 天津12 河北 13 山西14 内蒙古 15

                陕西61 甘肃62 青海 63

4.学历只能填写:大专、本科、硕士、其它

5.体重在40-120之间

package com.ztt.Demo02;import java.io.FileInputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;public class demo05 {public static void main(String[] args) {List<String> errorMsgList = validateDataExcel("D:\\test\\tt\\demo-data.xlsx");if (errorMsgList.size() == 0) {System.out.println("文件检查无误!");} else {// 显示所有错误信息for (String err : errorMsgList) {System.out.println(err);}}}public static List<String> validateDataExcel(String excelDataFilePath) {// 1.序号是否连续// 2.检查性别是否为男或女// 3.身份证号// 3.1 身份证号码格式(必须为18位)// 3.2 身份证号码不能重复// 3.3 身份证号码开头两位是否与籍贯符合// 北京 11 天津12 河北 13 山西14 内蒙古 15// 陕西61 甘肃62 青海 63// 4.学历只能填写:大专、本科、硕士、其它// 5.体重在40-120之间//创建用于保存错误提示信息的集合ArrayList<String> errorList=new ArrayList<String>();//创建用于检查身份证号码是否重复的set集合HashSet<String> idCardNoSet = new HashSet<String>();//创建用于检查身份证号码前2位与籍贯省份之间的映射关系的Map集合//北京11天津12河北13山西14内蒙古15//陕西61甘肃62青海63HashMap<String,String> provinceMap = new HashMap<String,String>() {//构造代码块{put("11","北京");put("12","天津");put( "13","河北");put("14","山西");put("15","内蒙古");put("61","陕西");put("62","甘肃");put("63","青海");}};//创建一个用于检查学历的List集合List<String> eduList = Arrays.asList("大专", "本科" , "硕士","其它");try(Workbook workbook=new XSSFWorkbook(excelDataFilePath)){Sheet sheet=workbook.getSheetAt(0);for(int i=1;i<sheet.getLastRowNum();i++) {Row row =sheet.getRow(i);//1.序号是否连续Cell cellId=row.getCell(0);int rowNum=row.getRowNum();int id=(int)cellId.getNumericCellValue();if(rowNum!=id) {errorList.add(String.format("%d行的编号不连续!", rowNum));}//2.检查性别是否为男或女String gender=row.getCell(2).getStringCellValue();if(!gender.equals("男") && !gender.equals("女")) {errorList.add(String.format("%d行的性别有误!", rowNum));}//3.身份证号String idCardNo = row.getCell(3).getStringCellValue();//3.1身份证号码格式(必须为18位)if(idCardNo.length() != 18) {errorList.add(String.format("%d行的身份证号码长度有误! ",rowNum));}//3.2身份证号码不能重复if(!idCardNoSet.add(idCardNo)) {errorList.add(String.format("%d行的身份证号码重复存在! ",rowNum));}//3.3身份证号码开头两位是否与籍贯符合//北京11天津12河北13山西14内蒙古15//陕西61甘肃62青海63String idCardNoHomeCode = idCardNo.substring(0,2);String homeValue = provinceMap.get(idCardNoHomeCode); //根据身份证号码前两位获取正确的籍贯省份名称String home = row.getCell(6).getStringCellValue();//获取表格中当前行的籍贯信息if(!homeValue.equals( home)) { errorList.add(String.format("%d行的身份证籍贯信息不一致! ",rowNum));}//4.学历只能填写:大专、本科、硕士、其它String eduValue=row.getCell(7).getStringCellValue();if(!eduList.contains(eduValue)) {errorList.add(String.format("%d行的学历信息不符合规范! ",rowNum));}}} catch (IOException e) {e.printStackTrace();}return errorList;}}

运行结果:

1行的学历信息不符合规范! 
3行的身份证籍贯信息不一致! 
4行的编号不连续!
5行的学历信息不符合规范! 
7行的身份证号码长度有误! 
9行的身份证号码长度有误! 
9行的学历信息不符合规范! 
10行的身份证籍贯信息不一致! 
11行的身份证号码长度有误! 
12行的编号不连续!
13行的身份证号码长度有误! 
14行的学历信息不符合规范! 
15行的学历信息不符合规范! 
16行的性别有误!
18行的编号不连续!
22行的身份证籍贯信息不一致! 
24行的身份证号码重复存在! 
25行的性别有误!
33行的身份证号码重复存在! 
36行的身份证号码长度有误! 
39行的身份证籍贯信息不一致! 
41行的身份证籍贯信息不一致! 
43行的身份证籍贯信息不一致! 
44行的身份证籍贯信息不一致! 
46行的身份证籍贯信息不一致! 


 


http://www.mrgr.cn/p/27458540

相关文章

INS 论文分享:一种用于交通流预测的多通道时空Transformer模型

本文主要介绍了我们在长期交通流预测方面的最新研究成果&#xff0c;该成果已发表在信息学领域的顶级期刊《Information Sciences》上&#xff0c;论文题目为《A Multi-Channel Spatial-Temporal Transformer Model for Traffic Flow Forecasting》。该论文的第一作者及通讯作者…

流媒体学习之路(WebRTC)——GCC中ProbeBitrateEstimator和AcknowledgedBitrateEstimator的大作用(7)

流媒体学习之路(WebRTC)——GCC中ProbeBitrateEstimator和AcknowledgedBitrateEstimator的大作用&#xff08;7&#xff09; —— 我正在的github给大家开发一个用于做实验的项目 —— github.com/qw225967/Bifrost目标&#xff1a;可以让大家熟悉各类Qos能力、带宽估计能力&a…

移动端定位打卡

签到按钮脚本 Mobile_NS.getCurrPosition(function(result){var lngdangq = result["lng"];var lathoum = result["lat"];var minDistance = null;//alert("addr"+addr);var dkzt = $f("dkzt").val();//alert(dkzt);if(dkzt==0){//$f(…

steam错误代码118?报错118?手把手教你应对Steam错误代码攻略

steam是由美国游戏开发公司Valve开发的一款数字发行、数字版权管理、多人游戏和社交平台。它最初是为Valve公司所开发的游戏而设计的&#xff0c;但现在已经发展成为游戏行业最大的数字发行平台之一。Steam平台提供了丰富的游戏资源&#xff0c;包括最新的独立游戏、大型多人在…

3秒修复老照片,一键智能变高清!

你肯定有一些年代久远的老照片,以及网络下载的图片或视频,不够高清还非常模糊,如果能一键修复成高清就好了!现在推荐一款神奇的Real-ESRGAN镜像,可以将模糊老照片和视频修复成高清晰,动动手分分钟帮你一键焕新!操作指南这就马上附上!你肯定有一些年代久远的老照片,以及…

EC11的中断实验——NVICEXTI

本文隶属于《GD32 示波器项目软件部分重难点及相关疑问解决》 4-EC11的中断实验——NVIC&EXTI 4-1 实验目标以及原理图 GD32E230外部中断EXTI(中断/事件控制器)包括21个相互独立的边沿检测电路并且能够向处理器内核产生中断请求或唤醒事件。EXTI有三种触发类型:上升沿触…

使用stable diffusion设计logo的提示词

使用stable diffusion设计logo的提示词 Stable Diffusion是一种基于图像处理和机器学习的算法,可以用于生成各种类型的图像,包括Logo设计。本文将介绍如何使用Stable Diffusion来设计Logo,并提供一些提示词以帮助读者更好地理解和应用这种技术。 1.了解Stable Diffusion的基…

方正字体 3.0 和 5.0 的比较

默认字体就是宋体(方正书宋)主要区别在于英文字体。5.0 中的斜体、宋体、黑体和楷体的英文字体都变化较大。 个人认为 5.0 更为合理。因为斜体和楷体本身就是较为接近手写字体的字体。而 5.0 中的英文斜体和楷体改的更像手写了。

实验四——代码审查

一、实验题目 :代码审查 二、实验目的 1、熟悉编码风格,利用开发环境所提供的平台工具对代码进行自动格式审查; 2、根据代码规范制定代码走查表,并按所制定的审查规范互审代码。 三、实验内容 1、IDEA环境和PyCharm环境二选一; IDEA环境 (1)预先准备在IDEA环境下实现对输…

vue开发网站—①调用$notify弹窗、②$notify弹窗层级问题、③js判断两个数组是否相同等。

一、vue中如何使用vant的 $notify&#xff08;展示通知&#xff09; 在Vue中使用Vant组件库的$notify方法来展示通知&#xff0c;首先确保正确安装了Vant并在项目中引入了Notify组件。 1.安装vant npm install vant --save# 或者使用yarn yarn add vant2.引入&#xff1a;在ma…

nginx--压缩https证书favicon.iconginx隐藏版本号 去掉nginxopenSSL

压缩功能 简介 Nginx⽀持对指定类型的⽂件进行压缩然后再传输给客户端&#xff0c;而且压缩还可以设置压缩比例&#xff0c;压缩后的文件大小将比源文件显著变小&#xff0c;这样有助于降低出口带宽的利用率&#xff0c;降低企业的IT支出&#xff0c;不过会占用相应的CPU资源…

VBA_NZ系列工具NZ06:VBA创建PDF文件说明

我的教程一共九套及VBA汉英手册一部&#xff0c;分为初级、中级、高级三大部分。是对VBA的系统讲解&#xff0c;从简单的入门&#xff0c;到数据库&#xff0c;到字典&#xff0c;到高级的网抓及类的应用。大家在学习的过程中可能会存在困惑&#xff0c;这么多知识点该如何组织…

ssrf漏洞学习——基础知识

一、SSRF是什么&#xff1f; SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。 一般情况下&#xff0c;SSRF攻击的目标是从外网无法访问的内部系统。&#xff08;正是因为它是由服务端发起的&#xff0c;所以它能…

《架构风清扬-Java面试系列第29讲》聊聊DelayQueue的使用场景

DelayQueue是BlockingQueue接口的一个实现类之一 这个属于基础性问题&#xff0c;老规矩&#xff0c;我们将从使用场景和代码示例来进行讲解 来&#xff0c;思考片刻&#xff0c;给出你的答案 1&#xff0c;使用场景 实现&#xff1a;延迟队列&#xff0c;其中元素只有在其预定…

layui的treeTable组件,多层级上传按钮失效的问题解决

现象描述: layui的treeTable 的上传按钮在一层能用&#xff0c;展开后其他按钮正常点击&#xff0c;上传按钮无效。 具体原因没有深究&#xff0c;大概率是展开的子菜单没有被渲染treeTable的done管理到&#xff0c;导致没有重绘上传按钮。 解决方案: 不使用layu的上传组件方法…

springboot+vue快速部署前后台项目,无需服务器

问题 前言 我们都知道,现在的主流开发大多数为,前后端分离,目前流行的框架,大多数是spring boot+element ui 这些框架,这无疑是给开发部署项目带来了便利,我们后台开发无需关心前端如何部署的,前端同样也无需关系后台如何部署,只需要确认能够访问即可。 存在有如下问题…

DDR5和LPDDR4/5 命令解析

关键名称介绍 DDR5 SDRAM和LPDDR4/5都采用了高级的命令集来支持更高效的内存管理和操作,其中“Multi-purpose command (MPC)”、“Mode Register Read (MRR)”、“Mode Register Write (MRW)”,以及“Write Pattern Command”是几种关键的命令类型,它们在内存初始化、配置和…

大型语言模型的新挑战:AMR语义表示的神秘力量

DeepVisionary 每日深度学习前沿科技推送&顶会论文&数学建模与科技信息前沿资讯分享&#xff0c;与你一起了解前沿科技知识&#xff01; 引言&#xff1a;AMR在大型语言模型中的作用 在自然语言处理&#xff08;NLP&#xff09;的领域中&#xff0c;抽象意义表示&…

HBM供不应求,SK海力士称2025年订单都几乎售罄

【科技明说 &#xff5c; 科技热点关注】 据外媒报道&#xff0c;SK海力士透露公司今年的HBM产能已经全部售罄&#xff0c;明年订单也基本售罄。此外&#xff0c;SK海力士预计在2024年5月提供世界最高性能的12层堆叠HBM3E产品的样品&#xff0c;并准备在第三季度开始量产。 ​…