- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BC―BSP一个基于BSP高可扩展并行迭代图处理系统
BC―BSP一个基于BSP高可扩展并行迭代图处理系统
摘要:提出了一个基于整体同步并行计算(BSP)模型的、具有磁盘暂存功能的大规模图处理系统――BC-BSP。该系统通过提供应用程序接口(API)实现系统配置和有关策略的可扩展性,通过优化的图数据磁盘存储实现了数据处理规模的高可扩展性以及高性能的容错方案,并且可以处理普通数据集的聚类和分类等需要迭代计算的数据挖掘算法。通过实验验证了该系统的可扩展性,其在真实数据集上性能优于Giraph1.0.0,在模拟数据集上稍逊于Giraph的内存版。
关键词:BSP;大规模图处理;迭代计算;磁盘缓存
Abstract:We describe a bulk synchronous parallel (BSP)-based parallel iterative processing system for graph data with disk caching assist. This system is called BC-BSP. The system can achieve the scalability of system configuration and policy by providing APIs, high scalability of the data scale processed, and high performance of fault-tolerant scheme by disk storage optimization to graph data. It can also execute some data mining algorithms with iterative processing, such as clustering and classification on non-graph data sets. The experimental results show that the scalability and performance of the proposed system are better than that of Giraph1.0.0 on the real data set,but it is lightly poorer than the memory version of Giraph.
Key words:BSP; large-scale graph processing; iterative computing; disk cache
图是计算机科学中最常用的一类抽象数据结构,更具有一般性的表示能力。现实世界中的许多应用场景都可以很自然地使用图结构表示。例如,交通运输网络、社交网络中的资源对象之间的关系以及生物信息网络等。在大数据时代,需要分析的图规模越来越大。以互联网和社交网络为例,随着互联网的深入使用和Web 2.0技术的推动,网页数量增长迅猛,据中国互联网络信息中心(CNNIC)统计:截止2014年12月中国网页规模达到1 899亿个,年增长率26.6%;而基于互联网的社交网络更是如此,如全球最大的社交网络Facebook,2014年7月已有约22亿用户,其中月活跃用户数13亿人。在中国,如QQ空间、微博、开心网等,发展也异常迅猛。因此,实际应用中图的顶点可达10亿,而边就会更多,对应的数据文件会更大。对如此大规模图数据的存储和分析处理的时间和空间开销远远超出了传统集中式图数据处理的承受能力。因此,对大规模图的有效处理成为了一个新的挑战。
MapReduce计算模型可以实现对大规模(图)数据的处理,并且具有很好的容错性和可扩展性。但是由于图数据分析(如网页的PageRank[1]计算、最短路径计算、聚类分析)都需要多次迭代才能完成。每次迭代需要一个或多个开销较大的MapReduce作业完成。为解决迭代计算的时间性能问题,谷歌公司开发了基于整体同步并行计算(BSP)模型的Pregel[2]系统,之后Apache的两个开源项目Hama和Giraph也开展了基于BSP的迭代计算系统的开发。它们都是在内存中做数据处理,因此能够处理的图的规模有限。文中,我们设计开发了基于BSP模型的、能够处理大规模(图)数据的并行迭代计算系统――BC-BSP。该系统主要特色在于:(1)实现了具有磁盘辅助的基于BSP的大规模图数据并行迭代处理系统,该系统在内存受限的情况下具有很好的数据处理能力,即在可用的节点规模和内存配置的情况下,可以处理的数据规模较大;(2)系统多方面考虑负载均衡,在充分考虑数据本地化的前提下考虑了各个节点的负载均衡问题,并且结点的负载均衡优先于数据本地化。我们做了大量的实验,比较了
您可能关注的文档
最近下载
- 2025《高质量数据集 质量评测规范》.pdf VIP
- DLT 5210.1-2021 电力建设施工质量验收规程全套表格最新.docx
- 生态环境执法大练兵比武竞赛理论备赛试题库(浓缩500题).docx VIP
- 邮轮上的客舱服务天津海运职业刘艳课件.pptx
- 基于战略视角的上市公司财务报表分析.pptx VIP
- 06SG517-1 轻型屋面三角形钢屋架(圆钢管、方钢管)建筑工程 图集 .docx VIP
- 53. 运动中的音乐选择.docx VIP
- 第7课 走近我们的老师 第2课时(教学课件)2025统编版道德与法治三年级上册.ppt
- 中国工会十八大报告学习问答100题(含答案).docx VIP
- 2024年党纪学习教育应知应会100题题库(含答案).docx VIP
文档评论(0)