Skip to content

Htsoul/nodejs-puppeteer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

nodejs-puppeteer

基于nodejs+puppeteer开发的网络爬虫功能,本项目以boss直聘为爬虫对象,爬取前4页的nodejs职位的薪资、地区、具体岗位,把爬取的数据存储起来,然后渲染到页面上

使用说明:本项目是本人学习的内容,并没有任何的商业价值,仅供学习参考

  • step1克隆拉取项目
  • step2输入下面命令安装依赖包
npm install --save
npm install --save puppeteer  
//配置文件的依赖项中没有puppeteer包,需要另行安装
  • step3输入下面命令运行项目
node app.js
  • step4在浏览器中输入127.0.0.1:3000

  • step5在浏览器中输入127.0.0.1:3000/echarts访问数据可视化页面

文件说明

  • middleware文件中封装了几个用到的方法
  • router文件处理路由请求
  • public文件存放静态资源
  • views存放视图文件
  • liepin.js是爬取内容的,需要单独运行此文件 node liepin.js
  • liepin.jsondata.json存储爬取的数据
  • app.js此文件是入口文件,文件中提供了两种分析获取页面的方法,第一种方法很简便但是得到的数据不是我想要的格式,所以我习惯用第二种方法获取到的数据,以便于我可以把数据展示在页面上。

最后,如果有幸看到此文件,请在议题中帮忙介绍关于数据处理方面的教程(最好是免费的,可以白嫖的),就是各种各样的数据格式渲染到前端,对于数据分析处理、接口数据接入等方面内容,不胜感激!!! 前方道阻且长,顶峰相见!! avatar

About

基于nodejs爬虫

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published