Skip to content

xxllp/zfnews

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

zfnews

政府新闻的爬虫和挖掘

引文:

主要是为了做个政务相关的信息搜索工具,也可以从网上找些接近人民日报的语料数据,其他更深的挖掘还有待观察。目前估计的政府网站至少在10w+,日更新量100w+,内容还是可观的。因为个人做的很慢,有兴趣的可以一起来做。

已完成的部分

1 网站的新增内容定时爬取 2 网站抽取的工作 3 元数据的维护

TODO

  1. 信息的分类搜索
  2. 文本分类和知识图谱

About

政府新闻的爬虫和挖掘

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published