程序员scholar 程序员scholar
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
npm

(进入注册为作者充电)

  • 快速入门

  • 克隆

  • 类型转换

  • 日期时间

  • IO流相关

  • 工具类

  • 语言特性

  • JavaBean

  • 集合类

  • Map

  • Codec编码

  • 文本操作

  • 注解

  • 比较器

  • 异常

  • 数学

  • 线程和并发

  • 图片

  • 网络

  • 源码编译

  • 配置文件

  • 日志

  • 缓存

  • JSON

  • 加密解密

  • DFA查找

  • HTTP客户端

  • 定时任务

  • 扩展

  • 切面

  • 脚本

  • Office文档操作

    • Excel工具 - `ExcelUtil`
    • Excel 生成工具 - `ExcelWriter`
    • Excel大数据生成工具 - `BigExcelWriter`
    • Excel读取工具 - `ExcelReader`
    • Word生成工具 - `Word07Writer`
    • 流方式读取Excel 2003 - `Excel03SaxReader`
      • 1. 定义行处理器
      • 2. 使用 ExcelUtil 快速读取
      • 3. 使用 Excel03SaxReader 构建对象读取
      • 4. 实际开发中的应用场景
      • 5. 常见问题和注意事项
    • 流方式读取 Excel 2007 - `Excel07SaxReader`
  • 系统调用

  • 图形验证码

  • 网络Socket

  • JWT

  • Hutoll
  • Office文档操作
scholar
2024-08-20
目录

流方式读取Excel 2003 - Excel03SaxReader

# 流方式读取Excel 2003 - Excel03SaxReader

介绍

  • 在数据量较大的 Excel 文件中,使用标准的 ExcelReader 进行读取会比较慢,并且可能会造成内存溢出问题。为了应对这种情况,Hutool 提供了基于事件模式的 Excel03SaxReader,专门用于高效地读取 Excel 2003 格式(.xls)的大数据量文件。

  • Excel03SaxReader 通过流式处理(SAX 解析)逐行读取数据,避免了一次性加载大量数据造成的内存压力。

# 1. 定义行处理器

首先需要实现 RowHandler 接口,这个接口是 SAX 读取的核心,通过实现 handle 方法来处理每行数据。在实际开发中,您可以根据需求将每行数据存入数据库、List 或直接写出到文件中。以下示例中,我们仅在控制台打印每行数据。

示例代码

import cn.hutool.poi.excel.sax.handler.RowHandler;
import cn.hutool.core.lang.Console;

import java.util.List;

public class MyRowHandler implements RowHandler {
    @Override
    public void handle(int sheetIndex, long rowIndex, List<Object> rowList) {
        // 打印读取到的每一行数据
        Console.log("Sheet [{}] - Row [{}]: {}", sheetIndex, rowIndex, rowList);
    }
}
1
2
3
4
5
6
7
8
9
10
11
12

代码解析

  • sheetIndex: 当前读取的 sheet 索引,从 0 开始。
  • rowIndex: 当前行的索引,从 0 开始。
  • rowList: 当前行的所有单元格数据,以列表形式存储。

在实际场景中,您可以将数据处理逻辑(如插入数据库、追加到 List 中等)写在 handle 方法中。

# 2. 使用 ExcelUtil 快速读取

Hutool 提供了 ExcelUtil.readBySax 方法,可以快速实现基于 SAX 解析的 Excel 读取。

示例代码

import cn.hutool.poi.excel.ExcelUtil;

public class ExcelSaxReadExample {
    public static void main(String[] args) {
        // 使用 ExcelUtil 进行 SAX 读取,指定处理器和 Sheet 序号
        ExcelUtil.readBySax("path/to/your/aaa.xls", 1, new MyRowHandler());
    }
}
1
2
3
4
5
6
7
8

代码解析

  • path/to/your/aaa.xls: Excel 文件的路径。
  • 1: 要读取的 Sheet 序号,0 表示第一个 Sheet,1 表示第二个 Sheet,以此类推。
  • MyRowHandler: 自定义的行处理器,用于处理每行数据。

# 3. 使用 Excel03SaxReader 构建对象读取

如果需要更灵活的控制,可以直接使用 Excel03SaxReader 类进行读取。

示例代码

import cn.hutool.poi.excel.sax.Excel03SaxReader;

public class ExcelSaxReadExample {
    public static void main(String[] args) {
        // 创建 Excel03SaxReader 对象
        Excel03SaxReader reader = new Excel03SaxReader(new MyRowHandler());

        // 读取指定的 Excel 文件,读取第一个 Sheet
        reader.read("path/to/your/aaa.xls", 0);
    }
}
1
2
3
4
5
6
7
8
9
10
11

代码解析

  • Excel03SaxReader(new MyRowHandler()): 传入自定义的行处理器。
  • reader.read("path/to/your/aaa.xls", 0): 读取第一个 Sheet 的数据,0 表示第一个 Sheet,-1 表示读取所有 Sheet。

# 4. 实际开发中的应用场景

  • 大数据量 Excel 文件处理:适用于百万级数据行的 Excel 文件,避免了内存溢出问题。
  • 批量数据导入:在数据导入场景下,可以逐行解析 Excel,并将数据逐条插入数据库,减少内存占用。
  • 分批处理:可以在 handle 方法中将数据进行分批处理,如批量插入或写入文件。

# 5. 常见问题和注意事项

  1. 性能优化:SAX 解析模式下,内存占用极低,适用于超大数据量的 Excel 文件读取。
  2. 文件格式限制:Excel03SaxReader 仅支持 .xls 格式的 Excel 文件,如果需要处理 .xlsx 文件,请使用 Excel07SaxReader。
  3. Sheet 序号:读取多个 Sheet 时,序号从 0 开始。使用 -1 可以读取所有 Sheet。
编辑此页 (opens new window)
上次更新: 2024/12/28, 18:32:08
Word生成工具 - `Word07Writer`
流方式读取 Excel 2007 - `Excel07SaxReader`

← Word生成工具 - `Word07Writer` 流方式读取 Excel 2007 - `Excel07SaxReader`→

Theme by Vdoing | Copyright © 2019-2025 程序员scholar
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式