1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
了解Hadoop

hadoop大数据处理基础前言从IT时代到DT时代前言-从IT时代到DT时代1HADOOP是什么2HDFS目录3MAPREDUCE4谁在用HADOOP5我们能做什么Hadoop那段早被说烂了的历史……Apache Nutch项目(开源搜索引擎,Lucene项目(文本检索引擎)的一部分)的一部分:Spider出生于2005年他父亲:Doug Cutting Michael J.Cafarella名字形象代言人:Doug Cutting自己儿子的玩具——小黄象HadoopHadoop的成就2008年1月,Hadoop已成为Apache顶级项目,证明它是成功的。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Facebook、纽约时报等。特别是纽约时报,它使用运行在亚马逊的EC2云计算上Hadoop,将4TB的报纸扫描文档压缩,转换为用于Web的PDF文档,这个过程历时不到24小时,使用100台机器运行,这成为Hadoop一个良好的宣传范例。2008年2月,雅虎宣布其索引网页的生产系统采用了在10000多个核的Linux集群上运行的Hadoop。Hadoop真正达到了万维网的规模。2008年4月,在一个900节点的Hadoop集群上,雅虎的研究人员运行1TB的Jim Gray基准排序,只用了209秒。2009年4月,在一个1400节点的集群上对500GB数据进行排序,只用了59秒,这显示了Hadoop强大的计算能力。Hadoop是什么呢?Hadoop的变迁Hadoop App StoreHadoop App StoreHadoop的各种appHadoop的各种app以Hortonworks 数据平台为例:/hdp/http/hdp/:///hdp/Hadoop的基本三要素1HADOOP是什么2HDFS目录3MAPREDUCE4谁在用HADOOP5我们能做什么HDFS 术语HDFSGFSMooseFS说明NameNodeMasterMaster它是个文件系统的大脑,提供整个文件系统的目录信息,各个文件的分块信息,数据块的位置信并且管理各个数据服务器。DataNodeChunk ServerChunk Server分布式文件系统中的每一个文件,都被切分成若干个数据块,每一个数据块都被存储在不同的服务器上,此服务器称之为数据服务器。BlockChunkChunk每个文件都会被切分成若干个块(默认64MB)每一块都有连续的一段文件内容,是存储的基本单位Packet NullNull客户端写文件的时候,不是一个字节一个字节写入文件系统的,而是累计到一定数量后,往文件系统中写入一次,每发送一次的数据,都称为一个数据包。ChunkNullBlock(64KB)在每一个数据包中,都会将数据切成更小的块(512字节),每一个块配上一个奇偶校验码(CRC),这样的块,就是传输块。SecondaryNameNodeNullMetalogger备用的主控服务器,在身后默默的拉取着主控服务器的日志,等待主控服务器牺牲后被扶正。HDFS 特点write-one-read-many容错及备份把“大数据”都存储起来 ? HDFS具有冗余备份的分布式文件系统超高的数据吞吐量对存储介质无苛刻要求,普通硬件即可满足对硬件故障容错性高流式访问本地计算HDFS 通讯HDFS 读操作HDFS 写操作01namenode容灾? DFSClient 崩溃?? 租约:当客户端需要占用某个文件时,与NameNode签订的一个短期合同? 超过期限没有续约,则终止租约,避免资源被长期霸占? DataNode 崩溃?? 客户端读取另外一个副本? 后台负责副本的均衡和复制? NameNode 崩溃?? 需要人工干预? 宕机期间整个集群都没反应? Secondary NameNode可以代替NameNode? 但可能会导致部分Editlog的丢失,无法100%恢复02datanode容灾03数据校验04序列化HDFS 其他1HADOOP是什么2HDFS目录3MAPREDUCE4谁在用HADOOP5我们能做什么Mapreduce (离线分布式计算框架)术语Hadoop术语 Google术语 说明Job Job 用户的每一个计算请求,称为一个作业。JobTracker Master用户提交作业的服务器,同时,它还负责各个作业任务的分配,管理所有的任务服务器。TaskTask每一个作业,都需要拆分开了,交由多个服务器来完成,拆分出来的执行单位,就称为任务。TaskTracker Worker任劳任怨的工蜂,负责执行具体的任务。MapReduce (离线分布式计算框架)工作机制Mapreduce(离线分布式计算框架) 编程模型Mapreduce(shufflesort) 编程模型Mapr

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档