详细说明请查看 数据挖掘实战之DBLP中合作者挖掘(Python+Hadoop)
下载DBLP数据集dblp.xml
到该目录下,http://dblp.uni-trier.de/xml/
运行getAuthors.py
得到authors.txt
文件
运行该文件后将对上一步得到的authors.txt
文件编码(安装作者姓名出现的顺序依次以正整数编码)得到编码后的文件authors_encoded.txt
,以及作者姓名与编码对应的文件authors_index.txt
,其对应关系为姓名所在的行号减1即为其编码ID(ID从0开始)
读取authors.txt
,统计不同支持度下有多少作者,同时绘制曲线,确定支持度阈值大概范围
主要借鉴了《机器学习实战》中的例子,将结果写入了 result*.txt
文件,注意最后的结果增加了置信度过滤。
第一轮MapReduce的Map和Reduce所用到的文件,其实质就是一个wordCount的过程
第二轮MapReduce的Map和Reduce所用到的文件,注意在这里的输出并给出没有完整的挖掘结果,而是输出的条件模式集,有空的话再转化一下。(本s实验目的只是验证FP-growth在分布式下实现的可能性,所以没有给出完整的结果)
添加了作者与其合作者之间的可视化功能,使用了networkx包。