memblazepblazessd助力hadoop提升性能-memblaze忆恒创源.pdfVIP

  • 5
  • 0
  • 约6.17千字
  • 约 5页
  • 2018-11-16 发布于天津
  • 举报

memblazepblazessd助力hadoop提升性能-memblaze忆恒创源.pdf

memblazepblazessd助力hadoop提升性能-memblaze忆恒创源

白皮书 WHITEPAPER Memblaze® PBlaze SSD 助力 Hadoop 提 升性能 Memblaze® PBlaze SSD 助力 Hadoop 提升性能 摘要 我们已经进入数据时代。很难评估电子存储数据的总量,但是 IDC 评估 2013 年数据量为 4.4 Zettabytes , 预计到 2020 年数据会增长十倍到44 Zettabytes。如何高效处理每年生成的巨量的数据?处理大规模数据需 要并行计算和存储架构, Hadoop 提供了并行的 ,可扩展的 ,可靠的架构。 本白皮书中展示了 Hadoop 使用 Membaze PBlaze SSD 的性能是使用 HDD 性能的 4.5 倍。 Hadoop 介绍 Hadoop 使用 HDFS 文件系统 ,HDFS 是一个高可扩展 ,并行文件系统 ,它为顺序数据集做了大量的优化 , 它跑在普通的硬件集群上。CPU 和内存每秒可以处理数百 GB 的数据 ,但是硬盘 IO 每秒仅可以处理 100MB 到几个 GB 的数据。硬盘 IO 是整个系统的性能瓶颈。每天大量数据生成,随着数据量的增长,处理数据需要 越来越长的时间。如何节省时间?解决硬盘 IO 性能瓶颈的问题 ,提升 HDFS 的性能。添加更多的硬盘到每 个机器?可能机器已经没有更多的硬盘空间。即便有更多的空间,添加硬盘的方式提升性能也是不够好的。 添加更多的机器可能数据中心没有更多的空间,而且添加系统开销太大。不用急,Memblaze PCIe SSD 帮 你解决了这个问题。我们用更少的机器提供更高的性能。我们的测试展示3个data nodes 每个配置一个SSD 的性能比 7 个 data nodes 每个配置 6 个 HDD 要高。 测试集群配置 HDFS 是用 JAVA 编写的分布式的 ,可扩展的 ,轻便的文件系统 ,它为 Hadoop 框架服务。一个 Hadoop 集 群通常有一个 Name node, 和一群 data node. 每个数据节点以块数据的方式按照 HDFS 规定的块协议跨越 网络存储数据。文件系统通过TCP/IP 套接字来通信。客户端之间使用 PRC 通信。 测试集群有一个 master node ,其上运行 NameNode, ResourceManager and client 功能 ,3 个 data nodes ,其配置如图 1 所示。 10Gb Ethernet Name node Data node1 Data node2 Data node3 图 1 测试集群拓扑 CPU: Dell PowerEdge R730x 2 socket Intel XeonE5-2630(8 cores) v3 白皮书 北京忆恒创源科技有限公司 2 Memblaze® PBlaze SSD 助力 Hadoop 提升性能 Memory: 128GB SSD: 1 x Memblaze 3.2T PBlaze4 Network: Intel 82599ES 10-Gigabit Linux: CentOS 7.0 File system: xt4 Java: 1.7.0_75 Hadoop: hadoop-2.6.3 Benchmark Tool: hadoop-mapreduce-client-jobclient-2.6.3-tests.jar TestDFSIO 下面列出了测试过程中的参

文档评论(0)

1亿VIP精品文档

相关文档