- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于mapreduce的并行图序列社区挖掘算法研究-计算机应用技术专业论文
Nanjing University of Aeronautics and Astronautics The Graduate School
College of Computer Science and Technology
Research on Parallel Algorithm of Graph Sequence Community Mining Based on
MapReduce
A Thesis in
Computer Application Technology by
Tang jun Advised by
Prof. Chen Songcan Submitted in Partial Fulfillment
of the Requirements for the Degree of Master of Engineering
December, 2011
承诺书
本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进 行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外, 本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标
明。
本人授权南京航空航天大学可以有权保留送交论文的复印件,允
许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据
库进行检索,可以采用影印、缩印或其他复制手段保存论文。 (保密的学位论文在解密后适用本承诺书)
作者签名: 日 期:
南京航空航天大学硕士学位论文
南京航空航天大学硕士学位论文
基于
基于 MapReduce 的并行图序列社区挖掘算法研究
I
I
PAGE
PAGE IV
摘 要
作为数据挖掘的重要研究方向,图序列社区挖掘在社交网络等实际问题中有着广泛应用。 如何精确地获得图序列中有价值的信息,以及如何加快算法在大规模数据集上的速度尤为关 键。现有社区挖掘方法大多基于树状图记录的分裂算法或自底向上的凝聚算法,且多为静态 挖掘而无时间方面的考虑。针对上述问题,本文提出基于编码代价的图序列社区挖掘算法 GSCM,并设计出基于谱聚类的 GSCM-SC 算法,在 Hadoop MapReduce 并行计算框架下对后 者进行并行化研究提出了 PGSCM 算法。
本文研究二值图序列,首先提出了编码代价的概念,通过优化此代价函数提出 GSCM 算 法。算法不需任何参数,并借鉴最小描述长度原理使社区划分的复杂性与社区结构的质量达 到平衡。将信息压缩后再聚类以获得较好的初始划分,并利用遗传算法的随机演化和择优思 想来避免被困于局部极小值。根据新图对编码代价的影响,及时判断出社区结构的变化。并 在实际数据集上验证了 GSCM 的有效性。
而后基于谱聚类提出 GSCM-SC 算法,并对其性能瓶颈进行并行化提出并行图序列社区
挖掘算法 PGSCM。利用相似度矩阵数据点间的独立性对其并行化;利用 Lanczos 方法解决 图拉普拉斯矩阵特征向量计算的并行化;利用 K-Means 计算数据点与聚类中心距离及迭代的 独立性对其并行化。并用多台虚拟机构成机器集群来搭建 Hadoop 平台,验证算法在真实数 据集上的有效性及其性能提升。
最后,初步探索了图序列社区挖掘灰度方面的问题,为今后提供了很好的研究方向。
关键词:图序列,社区结构,代价函数,MapReduce,并行化
ABSTRACT
As an important branch of data mining, community mining of graph sequence is widely applied in practical problems such as social networks. It’s critical about how to obtain the valuable embedded information and how to accelerate algorithm on massive data sets. Current methods almost adopt the splitting algorithm based on tree-map record and bottom-up agglomerative algorithm, and are static mining without consideration of time aspect. Based on coding cost, we propose a graph sequence community mining algorithm GSCM, and propose GSCM-SC based on spectral cl
您可能关注的文档
- 基于omi的中国so2浓度时空分布特征研究-环境工程专业论文.docx
- 基于nfc的物联网接入点设计与实现-电子与通信工程专业论文.docx
- 基于pcie的高速数据采集卡的fpga设计与实现-仪器仪表工程专业论文.docx
- 基于p2p网络资源查询技术研究-通信与信息系统专业论文.docx
- 基于niosii的人耳识别技术研究-精密仪器及机械专业论文.docx
- 基于powerpc的图像处理系统设计与验证-微电子学与固体电子学专业论文.docx
- 基于openflow的分布式网络中负载均衡路由的研究-计算机科学与技术专业论文.docx
- 基于omapl138的电能质量监测系统的研究与设计-电气工程专业论文.docx
- 基于pdms皱纹模板的贴花转印术的表面图案化-材料学专业论文.docx
- 基于psd的激光液位检测装置研究-检测技术与自动化装置专业论文.docx
- 基于newmap的益阳房产信息管理系统的设计与实现-软件工程专业论文.docx
- 基于plc的井下自动排水系统的研制-机械工程专业论文.docx
- 基于pmac的高速滑轨运动平台的开发及实现-机械电子工程专业论文.docx
- 基于radius协议的高性能认证服务器研究与实现-计算机应用技术专业论文.docx
- 基于pcie的高速存储系统设计-信号与信息处理专业论文.docx
- 基于ovirt的虚拟机池化平台压力测试系统的研究与实现-电子与通信工程专业论文.docx
- 基于nfc的智慧健康服务系统设计与实现-通信与信息系统专业论文.docx
- 基于opengl的脑颅ct断层图像三维重建-电工理论与新技术专业论文.docx
- 基于niosii平台的超声膀胱测容仪研究与设计-机械电子工程专业论文.docx
- 基于pdns的bittorrent流量局域化算法的仿真与实现-电子与信息工程专业论文.docx
文档评论(0)