hadoop入门介绍讲诉.ppt

下载文档 降价啦

2
0
约1.11万字
约 31页
2017-01-11 发布于湖北
举报
版权申诉
保障服务

hadoop入门介绍讲诉.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

MapReduce流程这是一个统计单词数的流程，Hadoop 将输入数据切成若干个分片，并将每个split交给一个map task 处理，map任务生成简单的键值对，数据通过combine（合并key值，可选过程）， shuffle(partion,sort,merge)将相同key值得数据合并，排序并通过key值分成若干个分片形成reduce的输入，并有reduce统计出结果，输出到文件。 Hadoop 发行版三大主流 Hadoop厂商我们的选择--Cloudera Cloudera生态圈提供：存储、监控、资源管理、批处理、交互式SQL接口，交互式查询接口、元数据管理以及机器学习等丰富的服务组件。由于Hadoop深受客户欢迎，许多公司都推出了各自版本的Hadoop，在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。选择Cloudera的原因： 1、Cloudera在Hadoop厂商中规模最大、知名度最高； 2、Cloudera社区活跃、文档教程丰富； 3、Cloudera提供丰富的组件，并提供完善的集成封装、日志与监控，便于使用； 4、Cloudera一半以上的研发项目贡献于 Apache，并且是Hadoop很多项目的直接参与人； 5、Cloudera提供免费版本，并且不限制节点。 Cloudera Ecosystem Thank You Hadoop是开源，大数据解决方案行业标准 * * 正因为是分布式存储只要你存储到HDFS 就可以保证你的文件不丢失，如果你空间不够用可以通过加节点来扩展空间 * 优点：1.高容错性 (?数据自动保存多个副本 ?副本丢失后，自动恢复 ; 2.适合批处理 (?移动计算而非数据 ?数据位置暴露给计算框架 ;适合大数据处理 ?GB、TB、甚至PB级数据 ?百万规模以上的文件数量 ?10K+节点规模) 3.流式文件访问 (?一次性写入，多次读取 ?保证数据一致性 ) 4.可构建在廉价机器上 (?通过多副本提高可靠性 ?提供了容错和恢复机制 ) HDFS缺点 (不适合低延迟数据访问 ?比如毫秒级 ?低延迟与高吞吐率，两个指标只能满足其一，做权衡; 不适合小文件存取 ?占用NameNode大量内存 ?寻道时间超过读取时间 ;并发写入、文件随机修改 ?一个文件只能有一个写者 ?仅支持append 随着现在的硬盘价格下降，可以把视频监控、爬虫数据都存储在HDFS上 * NameNode是HDFS的元数据节点，管理文件系统的命名空间，它维护着这个文件系统树以及这个树内所有的文件和索引目录，命名空间镜像（目录，数据块到文件的映射）和编辑日志，同时也记录每个数据块的所在数据节点。数据节点是文件系统的实际文件数据存储节点。它们提供定位块服务，并向元数据节点发送它们存储块的列表。 Hadoop解决单点故障问题主要是通过两种方式： 1、NFS文件共享 ( nfs方式是重量级的需要单独部署维护的，他作为namenode和standy namenode之间数据共享的存储，缺点是如果active 那么node 或者standy namenode有一个和nfs之间发生网络故障，将会造成数据同步问题。) 2、QJM 方式 CLOUDERA提出 QJM方式解决了nfs面临的问题，active namenode和standy namenode 之间通过一组journalnode奇数来共享数据， active nn 把最近的edits文件写到2n+1个journalnode只有n+1个写入成功，然后standy nn 就开始读取，这种方式支持容错！ * 如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间； SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。 DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。冷备份：b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。 fsimage:元数据镜像文件（文件系统的目录树。） edits：元数据的操作日志（针对文件系统做的修