HAdoop硬件建议汇总.pdf

下载文档 降价啦

205
0
约1.72万字
约 49页
2018-12-23 发布于江苏
举报
版权申诉
保障服务

HAdoop硬件建议汇总.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

硬件建议 1 Hadoop和其他系统的不同 • 不同应用，对Hadoop的配置、规划以及硬件要求都不一样 – 虽然可以将其分为主要的几大类应用 – 考虑批处理系统和低延时处理系统 – 考虑存储密集型系统和处理密集型系统 • “One size not fit all” 2 硬件选择的考虑因素 • 要使得Hadoop集群能够充分发挥作用，需要足够好的硬件，以及足够好的软件 • 虽然台式机硬件也能够运行Hadoop环境，但是在性能上有差距，解决问题的规模有限 • 合理选择硬件需要对自己所需要处理的问题有全面地了解，这样才能够投资合理的硬件 – 计算密集型应用 • 机器学习 • 数据挖掘 – IO密集型应用 • 索引，检索 • 统计，聚类 • 数据解码与解压缩 Hadoop生态系统 4 Hadoop主要核心组件 • Hadoop Distributed File System (HDFS) – 可靠的存储PB级别数据 – 文件设计为批处理优化，如大量数据块(Block) 的顺序读写 • HDFS中文件按块(Block)分割存储及处理，缺省64MB – 可配置的每文件副本数，缺省3份 – 支持机架(rack)感知的数据块放置策略 5 Hadoop主要核心组件 • MapReduce – 批量处理框架 – 从HDFS读取海量数据 – 大量上层应用框架，如Hive以及Pig • HBase – 提供低延时随机读写 – 使用HDFS作为底层可靠存储 – 基于Hadoop核心(HDFS/MapReduce) 提供服务 6 HDFS 特点： • 并行磁盘访问 • 节点磁盘容错 • 节点失效会导致数据块副本重新复制 • 流水线副本复制 • 副本数3或者10无太大性能差异性能要求： • 主要对于网络带宽以及存储容量要求高硬件偏好： • 硬盘网络 … 7 MapReduce 特点： • 通常需要读取整个数据集 • 数据写数量因应用不同而不同 – ETL为读写密集型应用 – 机器学习为读密集型应用 • Shuffle过程对网络要求通常极大 – 是Map和Reduce任务之间的M:M数据传输对应 – 可能导致网络风暴性能要求： • CPU能力直接影响并行能力(slot数目) 硬件偏好： • CPU 网络带宽 … – 内存要求视具体应用 8 HBase 特点： • 高性能数据随机写 – 通过Memstore缓存数据写入再flush，并做compaction – 顺序写WAL(write-ahead log)文件以避免磁盘寻址操作 • 高性能数据随机读 – 使用Blo