这是一个包含所有爬虫练习的仓库 这里面的每个文件和文件夹是相互独立的,只有文件夹里面的文件才是相互关联的,下面是对这里面的几个文件的介 1:spider_learn.py 本文件是参考玩蛇网对spider的学习,最主要的是:判断网站的字符、抓取图片、使用beautifulsoup等
2:yitiku_point 是把一题库数学知识点爬下来写入json文件;将知识点的txt文件转化为json文件;根据已有的权重计算爬下来后json文件对应知识点的权重。 主要内容:使用json,str\json\dict的转换、读取和写入文件操作