memblazepblazessd助力hadoop提升性能-memblaze忆恒创源.pdfVIP

下载本文档

5
0
约6.17千字
约 5页
2018-11-16 发布于天津
举报

memblazepblazessd助力hadoop提升性能-memblaze忆恒创源.pdf

memblazepblazessd助力hadoop提升性能-memblaze忆恒创源

白皮书 WHITEPAPER Memblaze® PBlaze SSD 助力 Hadoop 提升性能 Memblaze® PBlaze SSD 助力 Hadoop 提升性能摘要我们已经进入数据时代。很难评估电子存储数据的总量，但是 IDC 评估 2013 年数据量为 4.4 Zettabytes ，预计到 2020 年数据会增长十倍到44 Zettabytes。如何高效处理每年生成的巨量的数据？处理大规模数据需要并行计算和存储架构， Hadoop 提供了并行的，可扩展的，可靠的架构。本白皮书中展示了 Hadoop 使用 Membaze PBlaze SSD 的性能是使用 HDD 性能的 4.5 倍。 Hadoop 介绍 Hadoop 使用 HDFS 文件系统，HDFS 是一个高可扩展，并行文件系统，它为顺序数据集做了大量的优化，它跑在普通的硬件集群上。CPU 和内存每秒可以处理数百 GB 的数据，但是硬盘 IO 每秒仅可以处理 100MB 到几个 GB 的数据。硬盘 IO 是整个系统的性能瓶颈。每天大量数据生成，随着数据量的增长，处理数据需要越来越长的时间。如何节省时间？解决硬盘 IO 性能瓶颈的问题，提升 HDFS 的性能。添加更多的硬盘到每个机器？可能机器已经没有更多的硬盘空间。即便有更多的空间，添加硬盘的方式提升性能也是不够好的。添加更多的机器可能数据中心没有更多的空间，而且添加系统开销太大。不用急，Memblaze PCIe SSD 帮你解决了这个问题。我们用更少的机器提供更高的性能。我们的测试展示3个data nodes 每个配置一个SSD 的性能比 7 个 data nodes 每个配置 6 个 HDD 要高。测试集群配置 HDFS 是用 JAVA 编写的分布式的，可扩展的，轻便的文件系统，它为 Hadoop 框架服务。一个 Hadoop 集群通常有一个 Name node, 和一群 data node. 每个数据节点以块数据的方式按照 HDFS 规定的块协议跨越网络存储数据。文件系统通过TCP/IP 套接字来通信。客户端之间使用 PRC 通信。测试集群有一个 master node ，其上运行 NameNode, ResourceManager and client 功能，3 个 data nodes ，其配置如图 1 所示。 10Gb Ethernet Name node Data node1 Data node2 Data node3 图 1 测试集群拓扑 CPU: Dell PowerEdge R730x 2 socket Intel XeonE5-2630(8 cores) v3 白皮书北京忆恒创源科技有限公司 2 Memblaze® PBlaze SSD 助力 Hadoop 提升性能 Memory: 128GB SSD: 1 x Memblaze 3.2T PBlaze4 Network: Intel 82599ES 10-Gigabit Linux: CentOS 7.0 File system: xt4 Java: 1.7.0_75 Hadoop: hadoop-2.6.3 Benchmark Tool: hadoop-mapreduce-client-jobclient-2.6.3-tests.jar TestDFSIO 下面列出了测试过程中的参

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

memblazepblazessd助力hadoop提升性能-memblaze忆恒创源.pdfVIP