Hadoop入门--完整精品版.pptx

下载文档

10
0
约7.25千字
约 41页
2020-09-21 发布于四川
举报
版权申诉
保障服务

Hadoop入门--完整精品版.pptx

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop入门Hadoop概述Hadoop概述-hadoop简介什么是Hadoop ?一个开源、高可靠、可扩展的分布式计算框架解决的问题海量数据的存储（HDFS）海量数据的分析（MapReduce）分布式资源调度（Yarn）产生的背景受到google的三篇论文影响（GFS、MapReduce、BigTable）Hadoop概述-hadoop简介Hadoop 的扩容能力能可靠的存储和处理千兆（PB）字节的数据Hadoop 的成本低可以通过普通机器组成的服务器群，来分发以及处理数据。服务器群总计可达到数千个节点Hadoop 的效率高通过分发数据，Hadoop可以在数据所在的节点上并行的处理，这就使得处理非常的高效Hadoop 的可靠性Hadoop能自动维护数据的多份副本，并且在任务失败后能自动重新部署Hadoop应用场景Hadoop概述-hadoop应用场景日志分析2. 基于海量数据的在线应用3. 推荐系统4. 计算广告5. 复杂算法6. 网盘7. 搜索引擎……Hadoop架构组成Hadoop生态圈Ambari（安装、部署、配置和管理工具）（实时分布式数据库）（日志收集）HivePigMahout（数据仓库）Flume（数据流处理）（数据挖掘库）（分布式协助服务）HBaseZookeeperMapReduce（分布式计算框架）（数据库ETL）SqoopHDFS（分布式文件系统）Hadoop核心组件Hadoop概述-hadoop核心Hadoop项目主要包含以下4个模块：Hadoop Common :为其他Hadoop模块提供基础设施服务Hadoop HDFS :一个高可靠、高吞吐量的分布式文件系统Hadoop MapReduce :一个分布式的离线并行计算框架Hadoop Yarn :一个新的MapReduce框架，主要用于任务调度与资源管理HDFSHDFS 架构图Metadata（name,replicas,url……）SecondaryNameNodeNameNode读取元数据客户端心跳数据心跳数据心跳数据分块处理ACAECEACDB复制DBDBEdatanode3datanode1datanode2datanode4datanode5HDFS底层架构-分布式文件系统物理层存储的分布式基于客户机/服务器模式通过一个分布式文件系统，提供多个供用户访问的服务器提供备份与容错机制基于操作系统的本地文件系统比如：ext3、ext4NTFSHDFS底层架构-分布式文件系统分布式文件系统的优点传统文件系统最大的问题是容量与吞吐量有限制多用户多应用的并行读写，是分布式文件系统产生的根源一个硬盘的读写性能，远低于多块硬盘的同时读写能力！1台硬盘读写性能 == 75M/s 那么10个硬盘同时读写的性能就是：75G/s扩充存储空间的成本低廉可提供分布式冗余备份可以为分布式计算提供基础HDFS底层架构-HDFS基础概念HDFS是一个分布式文件系统HDFS是一个JAVA实现的，分布式的，可横向扩展的文件系统HDFS是Hadoop的核心组件基于*nix实现HDFS具有很高的容错性，提供高吞吐的数据访问HDFS适用于一次写入多次查询的情况，不支持并非写情况，不适合小文件HDFS底层架构-HDFS基础概念HDFS使用前提和设计目标硬盘错误是常态错误检测和快速自动恢复是HDFS最核心的目标存储超大容量的文件适合于大量存储，总存储量可以达到PB，EB为单位适合于大文件的存储，单个文件一般都在百M以上，而且文件数目适中流式数据访问HDFS适合用于处理批量，不适合随机定位访问HDFS底层架构-HDFS基础概念简单一致性模型HDFS的应用程序需要对文件实行1次写入，多次查询的访问模式，不存在修改已写入的数据程序采用“就近访问”原则分配节点执行运行在普通廉价的服务器上HDFS的设计理念就是让程序运行在普通的硬件之上，即便硬件出现问题，也可以通过容错机制来保证程序的高可用性。HDFS底层架构-HDFS基础概念HDFS的局限性不适合低延迟数据访问HDFS中存储的大容量的数据，高吞吐量就可能要求以高延迟为代价。当然我们可以通过Hbase等nosql产品来解决高延迟问题。无法高效的存储小文件文件数量大小，主要受到namenode的限制不支持多用户写入及任何修改文件HDFS底层架构-HDFS基础概念HDFS的基本概念-块HDFS基本存储单位是块，传统的块存储介质中，块是读写最小的数据单位HDFS中块的大小，在1.X的版本都是64M，而在2.X的版本大小则是128M块的大小可在hdfs-site.xml配置：1.X版本修改：dfs.block.size参数，2.X版本修改dfs.blocksize默认单位是byte,128M配置方式例如：128*1024*1024每