Skip to content

NaiveKyo/document-content-extract-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

52 Commits
 
 
 
 
 
 
 
 

Repository files navigation

简介

简易的文档内容抽取工具, 支持的文档类型:

  • .txt

逐行抽取纯文本内容;

  • .doc(Word 6 - Word 95)

按照文档顺序抽取文本和图片内容;

  • .docx(Word 2007)

按照文档顺序抽取文本、图片及表格文本内容;

  • .pdf

按页抽取文本和图片内容, 注意页内文本和图片无序;

  • .ppt

按页抽取文本和图片内容, 页内按读取顺序显示;

  • .pptx

按页抽取文本和图片内容, 页内按照读取顺序显示;

  • .xls & .xlsx TODO

TODO: 使用 apache poi 解析 excel, 考虑到内存问题, 针对 xlsx 文件, 可以探索使用 SAX 或者 poi 提供的 Stream API 去处理文件, 后续学习底层数据结构, 分析 EasyExcel 源码中是如何降低内存的。

持续完善功能...

About

simply file content extractor implementation.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages