第3.0讲Hadoop_866304230.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3.0讲Hadoop_866304230

Hadoop李国良清华大学计算机系提纲Hadoop体系结构简介基础组件-HDFS基础组件-MapReduce基础组件-YARNHBASE简介HBASE数据操作实例其他组件Hadoop的安装与配置Hadoop之父DougCuttingHadoop发展历程挣扎在如何使Nutch满足Web-Scale要求2002发表GFS论文2003参考GFS论文,在Nutch中实现NDF表MapReduce论文参考MapReduce论文,实现并移植Nutch2005加入Yahoo!并扩充,建立Hadoop项目发表BigTable、Chubby论adoop成为Apache顶级项目2008DougCutting(Hadoop作者)Hadoop发展历程Hadoop简介Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架,主要包括:MapReduce–离线大数据分析计算引擎HDFS–分布式文件系统YARN–任务执行调度资源管理框架Hbase–NoSQL数据库Hive–分布式数据仓库Hadoop生态圈HDFS–分布式文件系统分布式文件系统:大规模、分布式、容错MapReduce–分布式编程框架分布式编程框架Hbase–分布式NoSQL数据库分布式的、面向列的数据库,是一个适合于非结构化海量数据存储的数据库Pig–基于脚本语言的分析工具适合海量数据分析的脚本语言工具,包括一个数据分析语言和支持的运行环境Hive–基于SQL的数据仓库数据分析工具,将结构化数据文件映射为库表,并提供强大的类SQL查询功能Sqoop–数据交换工具在Hadoop与传统数据库之间进行数据交换的工具,支持两者之间的数据导入和导出Arvo–序列化工具基于二进制的高性能的通讯中间件,提供数据库和RPC功能Zookeepr–可靠性管理维护Hadoop集群的配置和命名信息,并提供分布式锁同步功能和群组管理功能Hcatalog–元数据管理为Pig、Hive和MapReduce提供了共享的结构和数据模型。Ambari–部署管理安装和初始化hadoop集群配置Hadoop系统结构图平台管理层:确保整个数据处理平台平稳安全运行的保障,包括配置管理、运行监控、故障管理、性能优化、安全管理等在内的功能。数据分析层:提供一些高级的分析工具给数据分析人员,以提高他们的生产效率。编程模型层:为大规模数据处理提供一个抽象的并行计算编程模型,以及为此模型提供可实施的编程环境和运行环境。数据存储层:提供分布式、可扩展的大量数据表的存储和管理能力,强调的是在较低成本的条件下实现海量数据表的管理能力。文件存储层:利用分布式文件系统技术,将底层数量众多且分布在不同位置的通过网络连接的各种存储设备组织在一起,通过统一的接口向上层应用提供对象级文件访问服务能力。数据集成层:系统需要处理的数据来源,包括私有的应用数据、存放在数据库中的数据、被分析系统运行产生的日志数据等,这些数据具有结构多样、类型多变的特点。为什么要使用Hadoop方便Hadoop运行在由一般商用机器构成的大型机群上,或者亚马逊弹性计算云等云计算服务至上。健壮Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁的出现失效,它可以从容的处理大多数此类故障。可扩展Hadoop通过增加集群节点,可以线性地扩展已处理更大的数据集。简单Hadoop允许用户快速编写出高效的并行代码。谁在使用Hadoop82+PB,25k+machines(2009)12+PB,10000+cores,15TBnewdataperday~1TBperday,~80nodes9+PB,1100+nodes20+PB,2000+nodes,10TBnewdataperday查看更多:/hadoop/PoweredByHDFSHDFS是什么分布式文件系统冗余存储面向大文件存储设计面向批量插入设计基于商用机器提供可靠的数据存储容忍部分节点故障HadoopHDFS系统架构图Metadata(Name,replicas..)(/home/foo/data,6...NameNode元数据操作同步元数据和日志SecondaryNameNodeDFSClient块操作读操作DatanodesDatanodes写操作机架另一个机架DFSClientHDFS相关术语HDFSGFSMooseFS说明NameNodeMasterMaster整个文件系统的大脑,它提供整个文件系统的目录信息,各个文件的分块信息,数据块的位置信息,并且管理各个数据服务器。DataNodeChunkServerChunkServer分布式文件系统中的每一个文件,都被切分成若务器上,此服务器称之为数据服务器。BlockChunkChunk每个文件都会被切分成若干个块(默认64MB)每一块

文档评论(0)

juhui05 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档