Hadoop上PageRank算法优化.pdf

下载文档 降价啦

1
0
约5.39万字
约 52页
2015-12-31 发布于安徽
举报
版权申诉
保障服务

Hadoop上PageRank算法优化.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

6．2．4扩容比………………………………………………………………………………。38 6．3稀疏图与原数据的对比分析……………………………………………………………40 6．3．1数据传输量分析………………………………………………………………………41 6．3．2加速比…………………………………………………………………………………………42 6。3．3扩容比…………………………………………………………………………………43 第七章结论和未来工作……………………………………………………………………45 参考文献…………………………………………………………………………………………46 硕士研究生期间主要工作………………………………………………………………………47 致i射………………………………………………………………………………………………………………………………48 万方数据摘要近年来随着社交网络和语义网络的兴起，海量数据挖掘成为学术界和工业界关注的焦点问题。在大规模数据的分析计算中，单台服务器的存储和计算能力已无法满足其对数据量和计算复杂度的需求。Apache基金会开发的开源项目 Hadoop作为一种流行的分布式计算平台，在很多涉及海量数据挖掘的产品和应用中发挥着重大作用。在传统的单机数据挖掘算法的实现中，数据集中存储在本地硬盘上，在计算时读入内存中相应的数据结构里，辅以一些高效的索引。在算法执行过程中程序反复的读取内存中的数据进行计算，最终输出结果到本地硬盘，控制台或远程客户端。对于单机算法来说，我们只需考虑算法的有效性，时间空问复杂度，数据结构的选择和结果的展示。随着数据量的增加，单台服务器的硬盘无法存储全部的输入输出数据，内存也无法容纳下计算中所产生的中问数据，这时一种行之有效的方法是将单机算法改造成分布式算法，利用多台机器进行分布式并行计算。在算法的分布式移植过程中需要考虑很多问题，例如数据的分布，计算的分布，结果的收集，各节点之间的网络传输，集群节点的故障恢复等等。而ltadoop分布式计算平台使开发者只需关注于计算本身，而网络通信，故障恢复都由Hadoop来负责，这样极大提高了分布式应用的开发效率。当单机算法扩展到Hadoop分布式平台上时，即成为Map(本地计算及数据再分配)一网络传输一Reduce(结果收集，合并计算)的模式。如何将原有的单机算法在Hadoop平台上予以实现对学术界和工业界来说都是一个新的挑战。在算如何节省网络传输的开销都是开发者需要考虑的问题。 PageRank算法是谷歌公司提出的网页排序算法，用于在搜索引擎中对网页进行打分，随着互联网的发展，网页的数量以指数级增长，远远超过了单台机器的存储和计算能力。如果能将PageRank算法迁移到Badoop上实现多机并行计算，就可以实现可扩展性，即当网页数量不断增加时，通过动态增加Hadoop集群中机器的数量，满足新的计算需求。但经过实验发现，将PageRank迁移到Hadoop上虽然满足了可扩展性的需求， JJJ 万方数据可能有其他的图数据，当图本身很稀疏或聚类效果不佳时，优化算法可能并不适用，本文针对上述情况建立了一个Cost 前判断优化算法的效果，如果优化效果不佳则选择原算法进行PageRank计算。间的网络开销，平衡计算资源，实现整体性能提升的优化方法，为其他涉及迭代的图挖掘迭代算法在Hadoop上的优化提出了一种新的思路。关键字：Hadoop，PageRank，图划分中图分类号：TP391 V 万方数据 Abstract Associalnetworkandsemanticnetwork inrecent