面向大规模二分图的团枚举算法研究.pdf

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向大规模二分图的团枚举算法研究 摘 要 数据挖掘是一门实用的学科,它根据具体问题应用具体方案,在繁杂的数据中找到 规律,给问题的研究人员提供决策辅助。图论是一门研究客观世界中事物间联系的学科。 两者相结合,就是希望通过图模型找到具体解决方案,挖掘出客观世界中数据的客观规 律。当今社会,越来越多的数据可以抽象成网络结构,从而在图论领域的数据挖掘问题 也越来越多,其中就不乏在二分图领域的数据挖掘问题,前人也在这一问题上获得了许 多研究成果。 本文研究的主要关注点在于,二分图上的子图结构二分团,以及极大二分团的枚举。 极大二分团枚举在现实社会中具有重要意义,可以被应用于多个领域,例如,购买趋势 预测,社交网络的统计分析,探讨蛋白质相互作用网络的一些有趣结构,电子商务网站 的刷单应用等。为了令研究内容更具有实际意义,笔者首先分析实际二分图数据的特点, 发现普遍具有规模大,数据稀疏等特点。而在前人的一些研究成果中,并没有重视这些 特点,存在优化空间。 在前人对解决极大二分团枚举问题的研究成果中,最好的方法是基于MapReduce 框 架设计的一个并行解决方案mrMBEA ,它具有不错的扩展性和加速比。但同时,这一解 决方案存在一定的缺陷,例如没有利用稀疏二分图的结构特点,对任务量估计存在偏差 等等。本文为了设计一个效果更好的并行解决方案,首先从串行算法入手,通过设计一 个高效的串行算法,然后将它并行化,从而达到目的。经过查阅资料发现,有一个种基 于递归迭代的串行算法 iMBEA ,在解决极大二分团枚举问题上效果显著,但是它也存 在很多缺点,例如没有分析稀疏二分图的结构特点,算法过程存在冗余,不易并行等等。 本文通过分析和优化,最终设计了一个新的串行算法 sMBEA,也通过实验验证它的性 能优势,在此基础上,又设计了动态负载均衡策略和共享参数存储结构,得到了并行解 决方案psMBEA ,并通过实验结果验证了其性能比传统mrMBEA 算法更加高效。 关键词:极大二分团枚举;图数据挖掘;并行算法;稀疏二分图 I Research on Cluster Enumeration Algorithm for Large-Scale Bipartite Graphs Abstract Data mining is a practical subject. It applies specific solutions according to specific problems, finds the rules in the complicated data, and provides decision-making assistance to the researchers. Graph theory is a discipline that studies the connection of things in the objective world. The combination of the two is to hope to dig out the objective laws of the data in the objective world through specific programs. In todays society, more and more data can be abstracted into a network structure, so there are more and more data mining problems in the field of graph theory. Among them, there are many data mining problems in the field of bipartite graphs. A lot of research results have been obtained. The main focus of this paper is on the bipartite an

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档