Hadoop未来走向之我见.pdfVIP

下载本文档

0
0
约1.57千字
约 14页
2020-07-03 发布于陕西
举报
版权申诉

Hadoop未来走向之我见.pdf

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我的Hadoop 2.0 Hadoop2.0要解决的问题  HDFS2.0  Scalability - NameNode  Availability - NameNode  MapReduce2.0  Scalability – JobTracker  其它考虑  Availability - JobTracker NameNode – Scalability – 问题  31,855,959个文件，34,233,901个块  内存占用约12GB  块管理≈ 7.8G，包括全部块副本信息  目录树≈ 4.3G，目录层次结构，包含文件块列表信息  到10亿文件、10亿块的数据规模  内存占用约380GB  块管理≈ 240GB  目录树≈ 140GB  负载  集群规模扩大后，单点的NameNode请求压力也会同时增大 NameNode – Scalability – 调研 NameNode – Scalability – 社区方案 NameNode – Scalability – 我们方案 NameNode – Scalability – 我们方案  文件对象管理服务  水平扩展  可以单独作为服务存在  上面可以实现多种namespace管理，比如类似FS，S3  Namespace  很多数据不再存储在Namespace上  很多请求不再通过Namespace  多种Namespace独立  DOS –类S3  无树状命名空间，二层命名空间  Object：几KB->几GB  REST API NameNode – Scalability – 我们方案 - DFS NameNode – Scalability – 我们方案 - DFS  预期  内存: 10亿文件，10亿块  文件约66GB，目录约1GB  单节点命名空间就可以管理  请求负载  大部分耗时操作都属于文件对象管理层，不用经过Namespace  最耗CPU资源的若干操作中，仍需经过Namespace的只占13.7%  命名空间管理不再维护块信息，大部分操作都不需要加全局锁，可以更充分利用CPU资源 JobTracker – Scalability – 背景  CPU调度  3000 ~ 5000台  内存  20w任务约占用1GB  我们的目标  在现有Hadoop版本上实现要简单有效  支撑10w节点集群上的作业压力。  充分考虑到未来需要跨机房部署集群的问题。 JobTracker – Scalability – 社区方案 JobTracker – Scalability – 我们方案 MapReduce – 其它考虑  任务同质化  目的: 提高资源利用率  Map和Reduce不再独立调度  Shuffle的处理  集群规模是否越大越好  好处: 共享，资源充分利用  坏处:  hdfs: 副本放置策略；跨机房问题  mapred ：本地化效果  层次化管理思想