实现爬取用户个人信息
实现爬取关注粉丝信息
获取总页数
初步完成单页原创微博爬取并以列表形式保存
还需要对列表的存储内容进行优化
完成所有原创微博爬取
完成微博内容+点赞数+评论数+转发数爬取并格式化显示
修复“已赞”和好友圈微博无法转发导致的爬取bug
完成对每条爬取微博所含图片的分析
(通过分析herf中URL实现)
完成长微博的分析及爬取
(存在碰到@用户与#标签#时无法爬取的bug)
修复爬取长微博的bug
完成微博发布时间、设备的获取并格式化显示
修复爬取到最后一页报错的bug
完成了所有微博(原创+转发)的爬取,尚未进行大批量测试
代码结构较复杂,需进行初步重构
存在“用户有评论转发等消息未查看时无法进行爬取”的bug
完成初步重构
完成进度条的添加,更直观的显示了抓取进度与预计剩余时间
(用progressbar2实现)
爬取转发微博仍存在bug
修复上述bug
新增可以选择显示原微博内容的初始化选项
添加了转发微博含有图片的提示
修复了转发原内容是长微博时无法显示完全的bug
现在已经可以将爬取内容保存成csv格式
保存效果如图:
因为保存的是csv文件,使用mac上excel需要转换编码:
iconv -f UTF8 -t GB18030 源文件.csv > 新文件.csv
暂时停止更新 🤣🤣
QQ:1091285927