网站大量收购独家精品文档,联系QQ:2885784924

基于mapreduce的并行图序列社区挖掘算法研究-计算机应用技术专业论文.docxVIP

基于mapreduce的并行图序列社区挖掘算法研究-计算机应用技术专业论文.docx

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于mapreduce的并行图序列社区挖掘算法研究-计算机应用技术专业论文

Nanjing University of Aeronautics and Astronautics The Graduate School College of Computer Science and Technology Research on Parallel Algorithm of Graph Sequence Community Mining Based on MapReduce A Thesis in Computer Application Technology by Tang jun Advised by Prof. Chen Songcan Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering December, 2011 承诺书 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进 行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外, 本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标 明。 本人授权南京航空航天大学可以有权保留送交论文的复印件,允 许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或其他复制手段保存论文。 (保密的学位论文在解密后适用本承诺书) 作者签名: 日 期: 南京航空航天大学硕士学位论文 南京航空航天大学硕士学位论文 基于 基于 MapReduce 的并行图序列社区挖掘算法研究 I I PAGE PAGE IV 摘 要 作为数据挖掘的重要研究方向,图序列社区挖掘在社交网络等实际问题中有着广泛应用。 如何精确地获得图序列中有价值的信息,以及如何加快算法在大规模数据集上的速度尤为关 键。现有社区挖掘方法大多基于树状图记录的分裂算法或自底向上的凝聚算法,且多为静态 挖掘而无时间方面的考虑。针对上述问题,本文提出基于编码代价的图序列社区挖掘算法 GSCM,并设计出基于谱聚类的 GSCM-SC 算法,在 Hadoop MapReduce 并行计算框架下对后 者进行并行化研究提出了 PGSCM 算法。 本文研究二值图序列,首先提出了编码代价的概念,通过优化此代价函数提出 GSCM 算 法。算法不需任何参数,并借鉴最小描述长度原理使社区划分的复杂性与社区结构的质量达 到平衡。将信息压缩后再聚类以获得较好的初始划分,并利用遗传算法的随机演化和择优思 想来避免被困于局部极小值。根据新图对编码代价的影响,及时判断出社区结构的变化。并 在实际数据集上验证了 GSCM 的有效性。 而后基于谱聚类提出 GSCM-SC 算法,并对其性能瓶颈进行并行化提出并行图序列社区 挖掘算法 PGSCM。利用相似度矩阵数据点间的独立性对其并行化;利用 Lanczos 方法解决 图拉普拉斯矩阵特征向量计算的并行化;利用 K-Means 计算数据点与聚类中心距离及迭代的 独立性对其并行化。并用多台虚拟机构成机器集群来搭建 Hadoop 平台,验证算法在真实数 据集上的有效性及其性能提升。 最后,初步探索了图序列社区挖掘灰度方面的问题,为今后提供了很好的研究方向。 关键词:图序列,社区结构,代价函数,MapReduce,并行化 ABSTRACT As an important branch of data mining, community mining of graph sequence is widely applied in practical problems such as social networks. It’s critical about how to obtain the valuable embedded information and how to accelerate algorithm on massive data sets. Current methods almost adopt the splitting algorithm based on tree-map record and bottom-up agglomerative algorithm, and are static mining without consideration of time aspect. Based on coding cost, we propose a graph sequence community mining algorithm GSCM, and propose GSCM-SC based on spectral cl

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档