- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于SSD高性能Hadoop系统设计与应用
一种基于SSD的高性能Hadoop系统的设计与应用
摘 要: Hadoop已经成为大数据平台的事实标准,当用户要求它成为全栈平台时,MapReduce为批处理而设计的局限日益显现。文中将SSD引入大数据的内存缓存存储解决方案,阐述了SSD和HDD的混合存储架构;同时,结合高效的计算模型Spark等优化技术,设计了一种基于SSD的高性能Hadoop系统,分别有效地解决大数据计算系统的性能问题和存储空间问题,实验性能评测显示取得了显著效果。
关键词:大数据 Hadoop Spark SSD
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2015)10(b)-0000-00
0 引言
随着信息数据化的发展,企业数据正在迅速增长,从GB级别跨入到TB和PB级别。庞大而复杂的数据需要与传统截然不同的处理方式,Hadoop[2]技术成为大数据事实上的标准。而Hadoop技术最大的瓶颈之一是MapReduce预算过程中磁盘I/O的瓶颈,导致MapReduce不适合迭代式(Iterative)和交互式(Interactive)应用。
本文针对这个问题,提出一个新的高性能Hadoop系统的设计和实现,内容包括:采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎,提高计算速度。引入SSD代替内存作缓存,让SSD和内存、HDD(Hard Disk Drive,机械硬盘)共同组成混合存储体系。
1 混合存储模型开始引入SSD
近年来,固态硬盘(Solid State Driver, SSD)已经作为一种可以持久化保存数据的存储设备逐步被广泛使用。SSD具有读写速度快(相对于传统磁盘,HDD)、价格低(相对于内存)的特点。很多研究机构和公司针对SDD和HDD的混合存储模型已经开展过大量研究和优化,取得了不错的成果。陈志广等人[5]提出一种高性能的混合存储方案,其主要想法是SSD响应所有I/O请求,获得较高的性能,另外用多块磁盘协作备份SSD数据,解决单块SSD上的突发写问题,并提高可靠性。
Hadoop系统在2.6.0版本中引入混合存储层的概念[7-8],开始支持基于SSD的混合存储体系,实现更好的性能扩展。因此,基于SSD的混合存储模型会逐渐成为Hadoop系统的重要基础。
2 高性能Hadoop系统基本框架
现阶段Hadoop系统主要基于MapReduce计算模型,其所有操作都要转化成Map、Shuffle和Reduce等核心阶段,即将对数据集的计算分发到每个节点并将中间结果进行汇总,中间结果需要向HDFS文件系统读写,同时计算模型数据需要网络传输,加上磁盘I/O存在瓶颈,所以现阶段的Hadoop系统在处理迭代式、交互式等复杂运算方面存在不足。
本文提出的高性能Hadoop系统是从存储和计算两大核心模型出发,建立一个统一的、高性能的大数据计算平台。核心计算模型采用Spark[15],并引入SSD作为Spark计算的缓存层来代替内存,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限。
图1 基于SSD的高性能Hadoop系统框架图
基于SSD的混合存储模型和Spark计算框架的Hadoop系统可根据数据的量级(如图2)来合理设置存储方案,实现高性能的处理能力。
图2 混合存储量级设置方案
3 性能评测
为了比较HDD、SSD和内存的性能,我们采用TPC-DS国际标准测试集进行了一系列测试,数据量为300GB。测试平台是一个4台服务器的集群,每台服务器的硬件配置为:Intel? Xeon? Processor E5-2620、256G内存、600G的SSD存储,以及8T的SATA硬盘。
测试TPC-DS中SQL语句运行所花时间对比的结果见表3。我们能看到,SSD和内存的性能都远远好于机械硬盘。而SSD相比内存,其性能最多相差在20%以内,平均差10%以内。
表3 DISK/RAM/SSD测试结果比较
测试 Disk RAM SSD
计数 118.82s 7.3s 7.56s
查找 128.33s 1.87s 2.04s
过滤 121.26s 9.87s 10.61s
关联 130.03s 5.04s 5.96s
维度
统计 226.06s 126.80s 132.89s
隐式
关联 259.41s 121.27s 137.79s
排序 227.39s 131.44s 140.58s
窗口
函数 172.54s 57.69s 60.88s
4 结束语
本文从基于SSD的混合存储体系和Spark
文档评论(0)