简易的文档内容抽取工具, 支持的文档类型:
- .txt
逐行抽取纯文本内容;
- .doc(Word 6 - Word 95)
按照文档顺序抽取文本和图片内容;
- .docx(Word 2007)
按照文档顺序抽取文本、图片及表格文本内容;
按页抽取文本和图片内容, 注意页内文本和图片无序;
- .ppt
按页抽取文本和图片内容, 页内按读取顺序显示;
- .pptx
按页抽取文本和图片内容, 页内按照读取顺序显示;
- .xls & .xlsx TODO
TODO: 使用 apache poi 解析 excel, 考虑到内存问题, 针对 xlsx 文件, 可以探索使用 SAX 或者 poi 提供的 Stream API 去处理文件, 后续学习底层数据结构, 分析 EasyExcel 源码中是如何降低内存的。
持续完善功能...