- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
项目搭建之环境整体介绍
1、集群节点介绍
集群
节点
主要工作
资源消耗
ZooKeeper
Zookeeper
多个节点竞选 leader
存储配置信息
不明显
网络要求比较高
Spark
Master
调度管理
少量内存
Slave
任务计算
CPU、内存越多越好
Hadoop HDFS
NameNode
文件元数据存储和访问
内存越大支持的文件数量越多
DataNode
存储数据
磁盘越大越好
QJM
文件元数据日志存储
少量存储
Hadoop YARN
ResourceManager
调度管理
少量内存
NodeManager
MapReducer 计算
CPU、内存
Redis
Redis
存储数据
内存越多越好
2、部署搭配建议
无论是 Spark 计算还是 Hadoop MapReduce 计算,离数据越近移动数据的开销越小,而且在大数据的大部分计算场景下,移动数据的开销都会大于计算的开销(提倡的本地计算)所以存储节点和计算节点一般都是混合部署。
建议如下:
1、Spark Slave 、HDFS DataNode、YARN NodeManager 这三类节点在相同的节点上
2、其他节点的主要工作任务就是管理 除了Namenode 对内存要求高一点之外,其他对硬件消耗都不大,所以都可以混合部署。但是这些节点中任何一个宕机对集群都不小的影响的,宕机2台的话集群就可能停止工作,建议选择稳定性较高的配置,比如双电源、磁盘RAID.
3、单机硬件配置
1、存储
Spark Slave 节点尽可能靠近存储系统,如果不能部署在相同节点上,请尽可能让他们在物理位置上更近一些,已减少 网络IO的开销,例如在同一个机架上,同一个路由器选,相同的机房里,同时建议使用4块或者更多独立挂载的硬盘,并且不要配置RAID,可以提升Spark 读写本地缓存数据时的效率.
2、内存
Spark 节点 内存越多,缓存数据更多,建议 分配最多节点内存总量的75%给Spark 使用,其他的留给操作系统,实际情况,参考 Spark 程序Web 界面上的数据.
3、网络
需要进行shuffle 类byKey 操作的时候,往往瓶颈就在网络上,建议使用10G bit/s+的网络,这部分信息也可以从Spark 程序的Web 界面上 可以看到 .
4、CPU
计算性能与CPU 核数量基本成正比,建议 8-16个核,具体结合实际负载和成本综合考虑,常规情况下 数据已经在内存中了,CPU 和网络IO 会成为瓶颈.
4、集群节点规划
3、项目软件版本说明
4、目录规划
THANK YOU
上海育创网络科技有限公司
文档评论(0)