- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硬件建议
1
Hadoop和其他系统的不同
• 不同应用,对Hadoop的配置、规划以及硬
件要求都不一样
– 虽然可以将其分为主要的几大类应用
– 考虑批处理系统和低延时处理系统
– 考虑存储密集型系统和处理密集型系统
• “One size not fit all”
2
硬件选择的考虑因素
• 要使得Hadoop集群能够充分发挥作用,需要足够
好的硬件,以及足够好的软件
• 虽然台式机硬件也能够运行Hadoop环境,但是在
性能上有差距,解决问题的规模有限
• 合理选择硬件需要对自己所需要处理的问题有全面
地了解,这样才能够投资合理的硬件
– 计算密集型应用
• 机器学习
• 数据挖掘
– IO密集型应用
• 索引,检索
• 统计,聚类
• 数据解码与解压缩
Hadoop生态系统
4
Hadoop主要核心组件
• Hadoop Distributed File System (HDFS)
– 可靠的存储PB级别数据
– 文件设计为批处理优化,如大量数据块(Block)
的顺序读写
• HDFS中文件按块(Block)分割存储及处理,缺省64MB
– 可配置的每文件副本数,缺省3份
– 支持机架(rack)感知的数据块放置策略
5
Hadoop主要核心组件
• MapReduce
– 批量处理框架
– 从HDFS读取海量数据
– 大量上层应用框架,如Hive以及Pig
• HBase
– 提供低延时随机读写
– 使用HDFS作为底层可靠存储
– 基于Hadoop核心(HDFS/MapReduce) 提供服务
6
HDFS
特点:
• 并行磁盘访问
• 节点磁盘容错
• 节点失效会导致数据块副本重新复制
• 流水线副本复制
• 副本数3或者10无太大性能差异
性能要求:
• 主要对于网络带宽以及存储容量要求高
硬件偏好:
• 硬盘 网络 …
7
MapReduce
特点:
• 通常需要读取整个数据集
• 数据写数量因应用不同而不同
– ETL为读写密集型应用
– 机器学习为读密集型应用
• Shuffle过程对网络要求通常极大
– 是Map和Reduce任务之间的M:M数据传输对应
– 可能导致网络风暴
性能要求:
• CPU能力直接影响并行能力(slot数目)
硬件偏好:
• CPU 网络带宽 …
– 内存要求视具体应用
8
HBase
特点:
• 高性能数据随机写
– 通过Memstore缓存数据写入再flush,并做compaction
– 顺序写WAL(write-ahead log)文件以避免磁盘寻址操作
• 高性能数据随机读
– 使用Blo
原创力文档


文档评论(0)