第一部分(Hadoop基础).pptVIP

下载本文档

2
0
约3.96千字
约 23页
2017-11-16 发布于河南
举报
版权申诉

第一部分(Hadoop基础).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一部分(Hadoop基础)

Company Logo LOGO Hadoop基础目录 Hadoop简介 1 HDFS—不怕故障的海量存储 2 MapReduce—分久必合 3 4 Hadoop Shell命令 4 Hadoop简介介绍内容简介: 1)Hadoop是什么? 2)Hadoop你能拿来干什么? 3)Hadoop有哪些子项目? 1 Hadoop是什么? Hadoop是Apache基金会下的一个开源分布式计算平台，以Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）和MapReduce分布式计算框架为核心，为用户提供了底层细节透明的分布式基础设施。HDFS的高容错性、高伸缩性等优点，允许用户将Hadoop部署在廉价的硬件上，构建分布式系统；MapReduce分布式计算计算框架则允许用户在不了解分布式系统底层细节的情况下开发并行、分布的应用程序，充分利用大规模的计算资源，解决传统高性能单机无法解决的大数据处理问题。 Hadoop你能拿来干什么? 基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。 Hadoop有哪些子项目? Hadoop主要由HDFS和MapReduce引擎两部份构成。最底层是HDFS，它存储Hadoop集群中所有存储节点上的文件，HDFS的上一层是MapReduce引擎，该引擎由JobTracker和TaskTrackers构成。 HDFS: 一个给应用提供高吞吐量的分布式文件系统。 MapReduce:用于在集群上分布式处理大数据集的软件架构。其它子项目: Avro: 一个数据序列化得项目。 Cassandra: 一个可扩展的多master的，避免单节点失效的数据库。 Chukwa:一个用于管理大规模分布式系统的数据集系统。 HBase: 一个可扩展的，分布的数据库，支持对大表的结构化数据的存储。 Hive:一个数据仓库的基础设施，提供数据汇总和特定查询。 Mahout:一个可扩展的机器学习和数据挖掘库。 Pig: 并行计算的一个高层次的数据流语言和执行框架。 ZooKeeper:一个分布式应用的高性能协调服务。 HDFS——不怕故障的海量存储作为Hadoop的核心技术之一，HDFS是分布式计算中数据存储管理的基础。它所具有的高容错性、高扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集(Large Data Set)的应用处理带来了很多便利。介绍内容简介: 1)HDFS数据块; 2)HDFS的体系结构; 3)HDFS的主要功能组件; 2 HDFS的体系结构每一个磁盘都有默许的数据块大小，这是磁盘进行数据读/写的最小单位。HDFS一样也有块的观点，默认为64 MB。HDFS文件被划分为多个分块作为独立的存储单元。HDFS的块比磁盘块大很多，其目的是为了最小化寻址开销。但也不会设置得过大，MapReduce中的map任务一次处理一个块中的数据，如果tasks太少，job的运行速度就会比较慢。 HDFS 采用了主-从（Master/Slave）结构模型(管理者-工作者模式)，如图所示。一个HDFS集群是由一个NameNode和若干个DataNode组成的。NameNode管理文件系统的元数据，DataNode存储实际的数据。客户端通过同NameNode和DataNodes的交互访问文件系统。客户端联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。 HDFS的主要功能组件 NameNode与DataNode NameNode(元数据节点)作为主控制服务器，管理文件系统的命名空间，记录文件数据块在每个DataNode上的位置和副本信息，协调客户端对文件的访问，以及记录命名空间内的改动和命名空间本身属性的改动；DataNode负责它们所在的物理节点上的存储管理。HDFS开发文件系统的命名空间以便让用户以文件的形式存储数据。从内部来看，文件被分成若干个数据块，而且这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录等，它也负责数据块到具体DataNode的映射。 DataNode(数据节点)负责处理文件系统客户端的文件读写请求，并在NameNode的统一调度下进行数据块的创建、删除和复制工作。例如客户端要访问一个文件，首先，客户端从NameNode中获得组成该文件的数据块位置列表，即知道数据块被存储在哪些DataNode上；然后，客户端直接从DataNode上读取文件数据。此过程中，NameNode不参与文件的传输。 MapReduce——分久必合 MapReduce是一种处