Parallel Community Detection on large Networks With Propinquity Dynamics PPT.ppt

Parallel Community Detection on large Networks With Propinquity Dynamics PPT.ppt

Parallel Community Detection on large Networks With Propinquity Dynamics PPT.ppt

KDD 2010 本文观看结束!!! 4) 相似度增量式更新 建立相似度表之后,每个顶点就会在算法2中逻辑的运行,在此之前先了解集合之间的运算表示,为了简洁,我们将来自不同顶点进行邻居节点集的交和并计算的操作用图表1来表示。 动态相似度算法的并行化 算法2中的CXY表示的是表1中X列Y行进行操作计算的结果集合。 表中的下标1,2用来区分不同的源邻居节点集。 整个相似度增量更新的算法如图所示 4) 相似度增量式更新(续) 图中,PD算法的相似度更新与整个并行PD的伪代码相对应 在挖掘大规模网络数据时,发现当所有的消息都发送到单个超步里时很容易超出内存的限制,在真正实现算法时,为了提高算法性能,这里提出两个改进: 消息流的控制 1)将宏超步划分为多个微超步; 2)评估消息的大小并进行流控制。 再建立一个哈希表作为相似度消息的缓冲区。 *在算法2里,迭代结束之前,每个顶点合并都有两个相似度哈希表。因为更新部分的相似度列表相对较小,这样可以节省许多在原来相似度哈希表上的映射搜索操作。 并行算法的性能问题 为了评估该算法在大规模网络上的有效性和可行性,实验采用维基百科链接的图数据集。该图里,顶点是正常的维基百科网页,维基百科网页指向其他正常维基百科网页的超链接作为无向图的边。 维基百科链接图最后的统计数据如表2所示。表中还有其他三种正常规模图数据集 。 实验—图数据集 首先在正常规模网络图 (单词联想网络) eatRS上评估算法的有效性。图3显示了在该网络图上发现的部分社区结构,不同的颜色代表不同的社区。 算法的有效性 实验1 该实验在10台机器上并行运行(分别为1G的处理器,1G的内存)取α=5,β=180 对于该网络图,通过2次迭代及363个超步在2分钟内就可完成计算。 图4显示了所提算法在Erdos02 co-authorship网络图上的部分实验结果。该图显示了整个网络中的5个社区,社区及其社区重叠部分都用了不同的颜色标明。 算法的有效性 实验2 该实验也在10台机器上并行运行(分别为1G的处理器,1G的内存)取α=2,β=20 对于该网络图,通过2次迭代及169个超步在1分钟内就可完成计算。 由这两个实验可以看出,动态相似度社区挖掘算法能有效的识别社区结构以及社区结构间的重叠顶点。 与之前两个在正常规模网络图上的实验相比,在原始的维基百科链接图上挖掘社区结构具有一定的难度。 其难度主要来自于顶点的度分布不均匀,例,指向美国页面的超链接有40,9511个,而指向题目为濒危动物的超链接仅有5,549个。而单个顶点的运行时间主要依据度的平方,所以这些异常顶点会破坏整体的效率。 解决方案:根据TFIDF原理,度数太高的顶点往往对社区挖掘的贡献较小,因此就可设置一个出度入度的上界来过滤掉部分边。 试验中,将300作为一个典型的度边界,并设置α=400,β=100,从而得到隐藏在维基百科中的社区结构。 与度的分布不均匀一样,社区结构的规模分布也不平衡,表3列出了3个正常规模的社区结构 算法的有效性 实验3 所提的算法是在并行平台上进行试验的,下面通过实验验证并行化的有效性。 下面使用两组不同规模数据集的实验测试并行的加速比。 第一组实验:在正常规模的hep-th-new网络图上进行 参数设置为α=20,β=300,,终止条件设置为ε=1000,图5中取的是算法的前5次迭代和655个BSP超步的运行时间 并行化的有效性 实验4 图5可以看出机器数量不同时运行时间的变化。(由于数据及规模的限制,使用机器数量不是太多,否则加重负载) 第二组实验:在大型维基百科数据集上进行,运行在1000个机器上 参数设置为α=400,β=1000,在合理的等待时间里完成计算,图6中取的是前4次迭代所用的运行时间。 并行化的有效性 实验5 注意,当使用的机器数在62到125之间时,内存的配额必须增加,只有这样才能整个内存空间才能满足需求。 对维基百科图的实验参数设置为α=400,β=1000,使用1000台机器(1GCUP,1G内存)参与计算,图7是增量式更新的算法与非增量式更新算法所使用运行时间的对比,图中迭代0表示输入图拓扑结构初始的相似度计算。 增量式相似度更新的有效性 实验6 图8是对改进为增量式相似度更新有效性的解释,显示的是拓扑结构及相似度映射表随着迭代的进行规模大小的演化。可以看出NI,ND的规模大小急剧减小。 相似度映射表与其更新部分规模的不同也证明了使用双重相似度映射表技术的意义 总结: 该篇文献提出了一个新的社区挖掘算法,即,基于拓扑结构和相似度之间彼此的更新,通过迭代自然的显现社区结构。 1)提出了相关邻近点相似度的概念; 2)提出了有

文档评论(0)

1亿VIP精品文档

相关文档