项目集群环境整体介绍教学课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
项目搭建之环境整体介绍 1、集群节点介绍 集群 节点 主要工作 资源消耗 ZooKeeper Zookeeper 多个节点竞选 leader 存储配置信息 不明显 网络要求比较高 Spark Master 调度管理 少量内存 Slave 任务计算 CPU、内存越多越好 Hadoop HDFS NameNode 文件元数据存储和访问 内存越大支持的文件数量越多 DataNode 存储数据 磁盘越大越好 QJM 文件元数据日志存储 少量存储 Hadoop YARN ResourceManager 调度管理 少量内存 NodeManager MapReducer 计算 CPU、内存 Redis Redis 存储数据 内存越多越好 2、部署搭配建议 无论是 Spark 计算还是 Hadoop MapReduce 计算,离数据越近移动数据的开销越小,而且在大数据的大部分计算场景下,移动数据的开销都会大于计算的开销(提倡的本地计算)所以存储节点和计算节点一般都是混合部署。 建议如下: 1、Spark Slave 、HDFS DataNode、YARN NodeManager 这三类节点在相同的节点上 2、其他节点的主要工作任务就是管理 除了Namenode 对内存要求高一点之外,其他对硬件消耗都不大,所以都可以混合部署。但是这些节点中任何一个宕机对集群都不小的影响的,宕机2台的话集群就可能停止工作,建议选择稳定性较高的配置,比如双电源、磁盘RAID. 3、单机硬件配置 1、存储 Spark Slave 节点尽可能靠近存储系统,如果不能部署在相同节点上,请尽可能让他们在物理位置上更近一些,已减少 网络IO的开销,例如在同一个机架上,同一个路由器选,相同的机房里,同时建议使用4块或者更多独立挂载的硬盘,并且不要配置RAID,可以提升Spark 读写本地缓存数据时的效率. 2、内存 Spark 节点 内存越多,缓存数据更多,建议 分配最多节点内存总量的75%给Spark 使用,其他的留给操作系统,实际情况,参考 Spark 程序Web 界面上的数据. 3、网络 需要进行shuffle 类byKey 操作的时候,往往瓶颈就在网络上,建议使用10G bit/s+的网络,这部分信息也可以从Spark 程序的Web 界面上 可以看到 . 4、CPU 计算性能与CPU 核数量基本成正比,建议 8-16个核,具体结合实际负载和成本综合考虑,常规情况下 数据已经在内存中了,CPU 和网络IO 会成为瓶颈. 4、集群节点规划 3、项目软件版本说明 4、目录规划 THANK YOU 上海育创网络科技有限公司

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档