Skip to content

Latest commit

 

History

History
32 lines (17 loc) · 775 Bytes

File metadata and controls

32 lines (17 loc) · 775 Bytes

简介

简易的文档内容抽取工具, 支持的文档类型:

  • .txt

逐行抽取纯文本内容;

  • .doc(Word 6 - Word 95)

按照文档顺序抽取文本和图片内容;

  • .docx(Word 2007)

按照文档顺序抽取文本、图片及表格文本内容;

  • .pdf

按页抽取文本和图片内容, 注意页内文本和图片无序;

  • .ppt

按页抽取文本和图片内容, 页内按读取顺序显示;

  • .pptx

按页抽取文本和图片内容, 页内按照读取顺序显示;

  • .xls & .xlsx TODO

TODO: 使用 apache poi 解析 excel, 考虑到内存问题, 针对 xlsx 文件, 可以探索使用 SAX 或者 poi 提供的 Stream API 去处理文件, 后续学习底层数据结构, 分析 EasyExcel 源码中是如何降低内存的。

持续完善功能...