Hadoop及子项目介绍.ppt

下载文档 降价啦

9
0
约8.43千字
约 34页
2017-12-18 发布于江西
举报
版权申诉
保障服务

Hadoop及子项目介绍.ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop及子项目介绍

Hadoop及子项目总结 HDFS - 最大化利用磁盘 MapReduce - 最大化利用 CPU HBase - 最大化利用内存 MapReduce 和 HBase 都将数据存储在 HDFS， HBase 利用了 MapReduce 的计算能力。 Pig 和 Hive 则为更高层的建筑，降低了使用 Hadoop 的门槛，提高了 Hadoop 开发效率。 ZooKeeper和Common 成员可以说是地基，是为上层建筑（包括高层）服务的。 * 智能交通应用技术架构图 * * 古代，人们用牛拉重物。一头牛拉不动时，他们不是培育更大更强壮的牛。同样，我们也不需要尝试开发超级计算机，而应使用更多计算机。 * HBase是一个分布式的、面向列的开源数据库. hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行. Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 Avro是一个数据序列化的系统. Avro是一个基于二进制数据传输高性能的中间件。Avro通过将数据进行序列化，以使得大批量数据交互过程更方便。 chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。 ZooKeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。 * 存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等 * 一份在NameNode指定的DataNode上，一份在与指定的DataNode不在同一台机器上的DataNode上，最后一份放在与指定的DataNode在同一Rack上的DataNode上。采用CRC32做数据校验。在写入文件Block的时候，除了写入数据外还会写入校验信息，在读取的时候则需要校验后再读入。一旦HDFS启动，就立即进入安全模式，安全模式下不能复制数据块。当客户端要写入文件到DataNode上时，客户端首先会读取一个Block，然后写到第一个DataNode上，接着由第一个 DataNode将其传递到备份的DataNode上，直到所有需要写入这个Block的DataNode都成功写入后，客户端才会开始写下一个 Block。单个NameNode: 如果失败，任务处理信息将会记录在本地文件系统和远端的文件系统中。 * DataNode正常服务,坏掉的磁盘上的数据尽快通知NameNode。 datanode每3秒钟向namenode发送心跳，如果10分钟datanode没有向namenode发送心跳，则namenode认为该datanode已经dead，namenode将取出该datanode上对应的block，对其进行复制。不支持并发写入，通过lease机制。操作日志----记录文件创建，删除，修改文件属性等操作 Fsimage------包含完整的命名空间、File-Block的映射关系、文件的属性（ACL, quota, 修改时间等）。 Secondary NameNode: 将NameNode的fsimage与edit log从Namenode复制到临时目录,将fsimage同edit log合并，并产生新的fsimage （减少启动时间）将产生的新的fsimage上传给NameNode,清除NameNode中的edit log * 寻址时间的提高速度远远慢于传输速率的提高速度。 * 进度与状态更新 JobTracker汇集起所有这些更新信息，从全局来监控这些jobs和tasks的状态。应用：日志分析、排序、搜索、广告计算，广告优化、分析，点击流分析，链接分析、垃圾数据分析、数据挖掘、机器学习 * * 依赖于模式可以减少写入数据的开销，提高序列化的速度并缩减其大小；同时，也可以方便动态脚本语言的使用，因为数据连同其模式都是自描述的。当客户端和服务端拥有彼此全部的模式时，不同模式下相同命名字段、丢失字段和附加字段等信息的一致性问题就得到了很好的解决。 * Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。 * * Hadoop培训 Hadoop与子项目介绍 2013.01 * 产生背景纽约