- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
EMR弹性低成本离线大数据分析最佳实践
技术创新,变革未来
E-MapReduce开源大数据平台
集群架构
E-MapReduce产品功能亮点-弹性
可视化集群管理控制台
⚫ 基于云的特性,获得资源的弹性
- 计算资源弹性
- 存储资源弹性
⚫ 灵活的弹性集群
- 计算与存储分离,需要时添加计算节点
- 动态计算组,按照集群状态进行伸缩
- Spot Instance
- 包月+按量组合
⚫ 弹性伸缩
- 按照时间
- 按照负载
E-MapReduce架构选型
丰富的产品规格族
E-MapReduce产品功能亮点-多样存储选择
HDFS Alibaba HDFS OSS(Standard)
数据可靠 数据可靠 数据可靠,成本低
EBS 后台多副本、成本高 成本中等,数据全部走 NativeOSS 通用性好
(Cloud Disk) 性能低,数据全部走网 网络,没有本地运算 性能低
络,没有本地计算
性能高,成本低
D1 数据可靠,成本低
(Local Disk) 数据易丢失,运维成本高 JindoFS 性能高
通用性好
额外的存储成本
性能高,成本低
I1/I2
(Local Disk) 数据易丢失,运维成本高
E-MapReduce架构选型
➢ Master主实例
⚫ 适合通用型或内存型实例,数据直接使用阿里云的云盘来保存,有三个备份的保证,数据高
可靠
➢ Core核心实例
⚫ 小数据量 (TB级别以下)或者是使用O S S 作为主要的数据存储时,可以使用通用型、计算
型或内存型。当数据量较大时 (10TB或以上),推荐使用大数据机型,以获得极高性价
比。当Core实例使用本地盘时,数据可靠性得不到保证,会由E M R 平台来进行维护和保
证。
➢ Task计算实例
⚫ 作为集群的计算能力的补充,可以使用除大数据型以外的所有机型。
➢ Gateway实例
⚫ 选择范围很大,没有特别的约束,推荐使用云盘。
E-MapReduce存储选型
➢ 云盘与本地盘
⚫ 云盘包括SSD 云盘、高效云盘、普通云盘;特点是磁盘并不直接挂载在本地的计算节点上,通过网络
访问远端的一个存储节点。每一份数据在后端都有两个实时备份,一共三份数据。所以当一份数据损
坏的时候 (磁盘损坏,不是用户自己业务损坏)会自动使用备份数据恢复
⚫ 本地盘包括大数据型的SATA 本地盘和本地SSD 盘;直接挂载在计算节点上的磁盘拥有超过云盘的性
能表现。使用本地盘的时候不能选择数量,只能使用默认配置好的数量,和线下物理机一样,数据没
有后端的备份机制,需要上层的软件来保证数据可靠性。
⚫ 适用场景:EMR 的所有云盘和本地盘都会在节点释放的时候清除数据,磁盘无法独立保存下来并再次
使用。Hadoop HDFS 会使用所有的数据盘作为数据存储;Hadoop Y A R N 也会使用所有的数据盘作
为计算的临时存储。当业务数据量并不太大 (TB级别以下
原创力文档


文档评论(0)