NodeJS实现的动态爬虫,用于触发所有请求,结合扫描器被动扫描
- preparePage
- DOM构建前注入js hook
- setUA、开启请求拦截、开js、关缓存
- hook 请求(导航锁定、图片等资源处理)
- 前端直接入queue
- 后端30x请求,跟首先判断page内容是否空,空就跟,非空就加queue,返回204
- 设置图片等资源返回
- 收集链接
- src、href、action等
- 注释中的url
- DOM构建后遍历节点,并触发节点中事件(包含对新节点的处理)
- dom event
- inline event(bug..)
- 自动填表单submit
- url去重
cluster或者多进程,选择puppeteer-cluster
https://www.anquanke.com/post/id/178339
https://xz.aliyun.com/t/7064
http://blog.fatezero.org/2018/04/09/web-scanner-crawler-02/
https://juejin.im/post/5dca6f04f265da4d1a4ca293