zfnews 政府新闻的爬虫和挖掘 引文: 主要是为了做个政务相关的信息搜索工具,也可以从网上找些接近人民日报的语料数据,其他更深的挖掘还有待观察。目前估计的政府网站至少在10w+,日更新量100w+,内容还是可观的。因为个人做的很慢,有兴趣的可以一起来做。 已完成的部分 1 网站的新增内容定时爬取 2 网站抽取的工作 3 元数据的维护 TODO 信息的分类搜索 文本分类和知识图谱