DBLP-Coauthor-Mining<br >(从DBLP数据集中挖掘合作者)

详细说明

下载DBLP数据集dblp.xml到该目录下，http://dblp.uni-trier.de/xml/
运行getAuthors.py 得到authors.txt文件

运行该文件后将对上一步得到的authors.txt文件编码（安装作者姓名出现的顺序依次以正整数编码）得到编码后的文件authors_encoded.txt，以及作者姓名与编码对应的文件authors_index.txt，其对应关系为姓名所在的行号减1即为其编码ID（ID从0开始）

读取authors.txt，统计不同支持度下有多少作者，同时绘制曲线，确定支持度阈值大概范围

主要借鉴了《机器学习实战》中的例子，将结果写入了 result*.txt文件，注意最后的结果增加了置信度过滤。

第一轮MapReduce的Map和Reduce所用到的文件，其实质就是一个wordCount的过程

第二轮MapReduce的Map和Reduce所用到的文件，注意在这里的输出并给出没有完整的挖掘结果，而是输出的条件模式集，有空的话再转化一下。（本s实验目的只是验证FP-growth在分布式下实现的可能性，所以没有给出完整的结果）

添加了作者与其合作者之间的可视化功能，使用了networkx包。