HAdoop硬件建议汇总.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硬件建议 1 Hadoop和其他系统的不同 • 不同应用,对Hadoop的配置、规划以及硬 件要求都不一样 – 虽然可以将其分为主要的几大类应用 – 考虑批处理系统和低延时处理系统 – 考虑存储密集型系统和处理密集型系统 • “One size not fit all” 2 硬件选择的考虑因素 • 要使得Hadoop集群能够充分发挥作用,需要足够 好的硬件,以及足够好的软件 • 虽然台式机硬件也能够运行Hadoop环境,但是在 性能上有差距,解决问题的规模有限 • 合理选择硬件需要对自己所需要处理的问题有全面 地了解,这样才能够投资合理的硬件 – 计算密集型应用 • 机器学习 • 数据挖掘 – IO密集型应用 • 索引,检索 • 统计,聚类 • 数据解码与解压缩 Hadoop生态系统 4 Hadoop主要核心组件 • Hadoop Distributed File System (HDFS) – 可靠的存储PB级别数据 – 文件设计为批处理优化,如大量数据块(Block) 的顺序读写 • HDFS中文件按块(Block)分割存储及处理,缺省64MB – 可配置的每文件副本数,缺省3份 – 支持机架(rack)感知的数据块放置策略 5 Hadoop主要核心组件 • MapReduce – 批量处理框架 – 从HDFS读取海量数据 – 大量上层应用框架,如Hive以及Pig • HBase – 提供低延时随机读写 – 使用HDFS作为底层可靠存储 – 基于Hadoop核心(HDFS/MapReduce) 提供服务 6 HDFS 特点: • 并行磁盘访问 • 节点磁盘容错 • 节点失效会导致数据块副本重新复制 • 流水线副本复制 • 副本数3或者10无太大性能差异 性能要求: • 主要对于网络带宽以及存储容量要求高 硬件偏好: • 硬盘 网络 … 7 MapReduce 特点: • 通常需要读取整个数据集 • 数据写数量因应用不同而不同 – ETL为读写密集型应用 – 机器学习为读密集型应用 • Shuffle过程对网络要求通常极大 – 是Map和Reduce任务之间的M:M数据传输对应 – 可能导致网络风暴 性能要求: • CPU能力直接影响并行能力(slot数目) 硬件偏好: • CPU 网络带宽 … – 内存要求视具体应用 8 HBase 特点: • 高性能数据随机写 – 通过Memstore缓存数据写入再flush,并做compaction – 顺序写WAL(write-ahead log)文件以避免磁盘寻址操作 • 高性能数据随机读 – 使用Blo

文档评论(0)

xina171127 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档