pip install -r requirements.txt
npm install
apt install imagemagick
apt install pngquant
抓取网页和图片并保存 EPUB,解压后可以得到图片和 HTML。
需要 ImageMagick 和 pngquant。包依赖见文件开头。
node epub-crawler
name
:保存的文件名称url
:目录页 URLlink
:链接<a>
的选择器base
:链接<a>
的前缀title
:文章页的标题选择器content
:文章页的内容选择器remove
:文章页需要移除的元素的选择器credit
:是否显示原文链接processMath
:是否处理 TeX 公式processDecl
:是否处理 sphinx 类定义hdrs
:HTTP 请求的协议头list
:如果这个列表不为空,则抓取这个列表,忽略url
自动压缩图片。需要 ImageMagick 和 pngquant。
node img-better <dir>
保存 HTML 中的图片到同目录的img
中,并更新 HTML 中的链接。
node img <file|dir>
调用谷歌翻译按段落翻译 HTML。
python trans.py <file|dir>
将 HTML 转化为 MD
node tomd <file|dir>
RuleObj {
filter: string|Array[string]|function(Element):boolean,
replacement: function(string, Element):string
}
module.exports: Array[RuleObj]
将 MD 中的链接转换为新浪短网址。
node sina-short <file>
将 MD/HTML 中的 TeX 公式转换为图片。
node process_tex <dir>