- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向大规模二分图的团枚举算法研究
摘 要
数据挖掘是一门实用的学科,它根据具体问题应用具体方案,在繁杂的数据中找到
规律,给问题的研究人员提供决策辅助。图论是一门研究客观世界中事物间联系的学科。
两者相结合,就是希望通过图模型找到具体解决方案,挖掘出客观世界中数据的客观规
律。当今社会,越来越多的数据可以抽象成网络结构,从而在图论领域的数据挖掘问题
也越来越多,其中就不乏在二分图领域的数据挖掘问题,前人也在这一问题上获得了许
多研究成果。
本文研究的主要关注点在于,二分图上的子图结构二分团,以及极大二分团的枚举。
极大二分团枚举在现实社会中具有重要意义,可以被应用于多个领域,例如,购买趋势
预测,社交网络的统计分析,探讨蛋白质相互作用网络的一些有趣结构,电子商务网站
的刷单应用等。为了令研究内容更具有实际意义,笔者首先分析实际二分图数据的特点,
发现普遍具有规模大,数据稀疏等特点。而在前人的一些研究成果中,并没有重视这些
特点,存在优化空间。
在前人对解决极大二分团枚举问题的研究成果中,最好的方法是基于MapReduce 框
架设计的一个并行解决方案mrMBEA ,它具有不错的扩展性和加速比。但同时,这一解
决方案存在一定的缺陷,例如没有利用稀疏二分图的结构特点,对任务量估计存在偏差
等等。本文为了设计一个效果更好的并行解决方案,首先从串行算法入手,通过设计一
个高效的串行算法,然后将它并行化,从而达到目的。经过查阅资料发现,有一个种基
于递归迭代的串行算法 iMBEA ,在解决极大二分团枚举问题上效果显著,但是它也存
在很多缺点,例如没有分析稀疏二分图的结构特点,算法过程存在冗余,不易并行等等。
本文通过分析和优化,最终设计了一个新的串行算法 sMBEA,也通过实验验证它的性
能优势,在此基础上,又设计了动态负载均衡策略和共享参数存储结构,得到了并行解
决方案psMBEA ,并通过实验结果验证了其性能比传统mrMBEA 算法更加高效。
关键词:极大二分团枚举;图数据挖掘;并行算法;稀疏二分图
I
Research on Cluster Enumeration Algorithm for Large-Scale Bipartite Graphs
Abstract
Data mining is a practical subject. It applies specific solutions according to specific
problems, finds the rules in the complicated data, and provides decision-making assistance to
the researchers. Graph theory is a discipline that studies the connection of things in the
objective world. The combination of the two is to hope to dig out the objective laws of the
data in the objective world through specific programs. In todays society, more and more data
can be abstracted into a network structure, so there are more and more data mining problems
in the field of graph theory. Among them, there are many data mining problems in the field of
bipartite graphs. A lot of research results have been obtained.
The main focus of this paper is on the bipartite an
您可能关注的文档
- 卷积神经网络在多路网络视频流车牌识别中的研究及应用.pdf
- 绝经前女性盆底功能障碍性疾病的管理.pdf
- 菌株C3212的系统分类及噬琼胶菌D1326所产琼胶酶研究.pdf
- 开封化学试剂厂生态修复策略及景观概念设计研究.pdf
- 糠酸莫米松抑制结肠癌细胞增殖和迁移的机制研究.pdf
- 考虑客流比的站台设施设置方法.pdf
- 考虑跳车工况下的公路简支梁桥冲击系数分析.pdf
- 克罗米芬和来曲唑在不明原因不孕患_省略_内人工授精的系统性回顾和荟萃分析.pdf
- 空中客车A320s飞机故障报文甄别方法研究.pdf
- 控制室内环境污染的预防和治理措施研究.pdf
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)