- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spark框架的Graphx算法研究.pdf
ISSN 1009-3044 E—mail:x~l@dnzs.net.ca
ComputerKnowledgeandTechnology电脑知识与技术 http://www.dnzs.net.CH
Vo1.1I,No.I,January2015 ’ Tel:+86—55165690964
Spark框架的Graphx算法研究
陈虹君
(电子科技大学成都学院,四川成都 611731)
摘要:随着搜索引擎对网页的排名的需要,以及社交网络的兴起 ,海量关系所产生的大数据需要得到处理。图计算在数据
关系的分析上发挥着其巨大的潜能。Spark~$架是Hadoop大数据平台上整合能力强,处理速度快的内存模型框架,它的图
处理Graphx也得到快速发展。该文先介绍Spark框架与Graphx的关系与发展。接着分析 了Graphx中的三个典型的算
法。最后总结了Graphx的场景应用。
关键词:大数据;Hadoop;Spark;图计算;Graphx;PageRank
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01—0075—03
ResearchOilGraphxAlgorithmsinSparkFramework
CHENHong-jan
(ChengduCoUegeofUniversityofElectronicScienceandTechnologyofChina,Chengdu611731,China)
Abstract:Asthesearchen~neneedofWebpageranking,andtheriseofsocialnetworking,largemassdatarelationsneedtopro—
cess.Graph calculationplaysitsgreatpotentialin theanalysisofdatarelationship.TheSpark frameworkismemorymodelframe
which isdeployed on Hadoop.Ithasrgeatintergationability;highprocessingspeed.Sothergaph processingGraphxalso ob-
tainedthefastdevelopment.Inthispaper,~stlyintroducetherelationanddevelopmentofSparkframeworkandGraphx.Then
analyzethethreeytpicalalgorithmsinGraphx.Finallysum upthesceneusingGraphx.
Keywords:bigdata;Hadoop;Spark;rgaphscomputing;Graphx;PageRank
图计算可以用来处理复杂的数据联系。比如:整个社交网站就像一个关系网一样 ,处处充满了联系。在大数据时代 ,网络关
系 日益丰富的今天 ,大数据的图处理正迅猛发展。而图在数据分析上的典型应用就是Facebook、twitter这样的社交网站上的对用
户及话题的分析,因为用户之间可能随时都会产生新的联系,不同用户对于不同话题也有不同的倾向。
图用顶点(ve~ex)来表示数据对象,用边 (edge)来表示数据之间的联系,而边的权值可以是价值、身份 、时间等各种抽象或者逻
辑上的意义。图可以转化为数学上的邻接矩阵,因此对图的各种算法应用大多都要建立在数学之上;图的应用算法需要用数学公
式来分析和证明,同样一个图能否并行处理也要依赖于它相应的数据矩阵是否可以再分。
1Spark框架与Graphx
Spark是基于内存的编程模型,它可以把中间的迭代过程不放在磁盘中,直接数据不落地在内存中执行 ,极大地提高了它的执
行速度。Sprak分为四大模块 :SparkSQL—RDD(数据执行的基本单元),Muib(机器学习)、Graphx(图计算),SparkStreaming(实时
处理),整个框架形成了大数据处理各种应用场景编程的一致性。
GraphX是新的(alpha)Spark用于图表和
文档评论(0)