hdoop2总结..docxVIP

下载本文档

6
0
约2.28万字
约 33页
2017-01-27 发布于重庆
举报
版权申诉

hdoop2总结..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

hdoop2总结.

Hadoop2.0 federation介绍1 概述在/topicnews.aspx?tid=13 \o Hadoop \t _blankHadoop1.0的架构中，HDFS的所有的元数据都放在一个namenode中，只有一个namespace(名字空间)。这样随着HDFS的数据越来越多，单个namenode的资源使用必然会达到上限，而且namenode的负载也会越来越高，限制了HDFS的性能。在hadoop2.0架构中，namenode federation（联合）通过多个namenode/namespace把元数据的存储和管理分散到多个节点中，使到namenode/namespace可以通过增加机器来进行水平扩展，并且能把单个namenode的负载分散到多个节点中，在HDFS数据规模较大的时候不会也降低HDFS的性能。还有可以通过多个namespace来隔离不同类型的应用，把不同类型应用的HDFS元数据的存储和管理分派到不同的namenode中。2 架构如果上图所示，一个block pool由属于同一个namespace的数据块组成，每个namenode管理一个namespace，即每个namenode负责存储和管理一个block pool的元数据。而每个datanode是会连接所有的namenode的，为所有的block pools所共享，即每个datanode都会存储所有的block pools的数据块。每个block pool通过namespace隔离开来，对一个block pool的操作不会影响另外一个block pool。从配置和使用的角度来看，整个HDFS有一个唯一的clusterid，如“hellokitty”，它可以配置多个block pool/namespace（也叫name service），如“mycluster”和“yourcluster”。为了方便访问不同名字空间的目录和文件，federation还提供了一个类似linux的Client Side Mount Table的挂载机制，提供了一个统一的全局的文件系统视图（viewfs）。用户可以根据自己的需要把各个namespace挂载到一个叫做viewFS的文件系统视图的不同目录下。例如namespace/name service “mycluster”和“yourcluster”分别挂载到viewfs的“/my”和“/your”目录下，如下图所示：3 federation和HA上面提到的每个namespace/name service配置一个namenode，这样这个namespace/name service的单点问题还是存在，因此可以给每个namespace/name service配置成HA。假设我们有4台namenode，分别是namenode1，namenode2，namenode3，namenode4。其中namenode1和namenode2是namespace/name service“mycluster”的两个主备namenode节点，NN_ID分别是“mycluster”的“nn1”和“nn2”；而namenode3和namenode4是namespace/name service“yourcluster”的两个主备namenode节点，NN_ID分别是“yourcluster”的“nn1”和“nn2”。“mycluster”和“yourcluster”分别挂载在viewfs的“/my”和“/your”目录下。结构如下图所示：4 实战tips一般1000台机器一下的中小规模的hadoop集群，一个namespace/name service就足够了，不需要考虑federation，以免增加不必要的复杂性。/jiushuai/article/detailsadoop2.0 yarn 总结基于hadoop2.2.0?为什么使用hadoop？在单机程序设计中，为了快速处理一个大的数据集，通常采用多线程并行编程，如图所示，大体流程如下：先由操作系统启动一个主线程，由它负责数据切分、任务分配、子线程启动和销毁等工作，而各个子线程只负责计算自己的数据，当所有子线程处理完数据后，主线程再退出。这种方式依然受限于一台计算机的处理能力，另外某些数据集的增长会超出一台计算机的处理能力。这时可以将大数据切分成多部分使用多台计算机来处理数据，当使用多台计算机时，整个大环境中的其他因素将对其产生影响，其中最主要是协调性和可靠性两大因素。哪个进程负责运行整个作业？我们如何处理失败的进程？因此，尽管可以实现并行处理，但是实际上非常复杂，使用hadoop框架来实现并行数据处理将很有帮助。?hadoop 2.0??hadoop2.0的组成：