Hadoop及子项目介绍.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop及子项目介绍

Hadoop及子项目总结 HDFS - 最大化利用磁盘 MapReduce - 最大化利用 CPU HBase - 最大化利用内存 MapReduce 和 HBase 都将数据存储在 HDFS, HBase 利用了 MapReduce 的计算能力。 Pig 和 Hive 则为更高层的建筑,降低了使用 Hadoop 的门槛,提高了 Hadoop 开发效率。 ZooKeeper和Common 成员可以说是地基,是为上层建筑(包括高层)服务的。 * 智能交通应用技术架构图 * * 古代,人们用牛拉重物。一头牛拉不动时,他们不是培育更大更强壮的牛。同样,我们也不需要尝试开发超级计算机,而应使用更多计算机。 * HBase是一个分布式的、面向列的开源数据库. hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 Avro是一个数据序列化的系统. Avro是一个基于二进制数据传输高性能的中间件。Avro通过将数据进行序列化,以使得大批量数据交互过程更方便。 chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。 ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。 * 存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等 * 一份在NameNode指定的DataNode上,一份在与指定的DataNode不在同一台机器上的DataNode上,最后一份放在与指定的DataNode在同一Rack上的DataNode上。 采用CRC32做数据校验。在写入文件Block的时候,除了写入数据外还会写入校验信息,在读取的时候则需要校验后再读入。 一旦HDFS启动,就立即进入安全模式,安全模式下不能复制数据块。 当客户端要写入文件到DataNode上时,客户端首先会读取一个Block,然后写到第一个DataNode上,接着由第一个 DataNode将其传递到备份的DataNode上,直到所有需要写入这个Block的DataNode都成功写入后,客户端才会开始写下一个 Block。 单个NameNode: 如果失败,任务处理信息将会记录在本地文件系统和远端的文件系统中。 * DataNode正常服务,坏掉的磁盘上的数据尽快通知NameNode。 datanode每3秒钟向namenode发送心跳,如果10分钟datanode没有向namenode发送心跳,则namenode认为该datanode已经dead,namenode将取出该datanode上对应的block,对其进行复制。 不支持并发写入,通过lease机制。 操作日志----记录文件创建,删除,修改文件属性等操作 Fsimage------包含完整的命名空间、File-Block的映射关系、文件的属性(ACL, quota, 修改时间等)。 Secondary NameNode: 将NameNode的fsimage与edit log从Namenode复制到临时目录,将fsimage同edit log合并,并产生新的fsimage (减少启动时间) 将产生的新的fsimage上传给NameNode,清除NameNode中的edit log * 寻址时间的提高速度远远慢于传输速率的提高速度。 * 进度与状态更新 JobTracker汇集起所有这些更新信息,从全局来监控这些jobs和tasks的状态。 应用:日志分析、排序、搜索、广告计算,广告优化、分析,点击流分析,链接分析、垃圾数据分析、数据挖掘、机器学习 * * 依赖于模式可以减少写入数据的开销,提高序列化的速度并缩减其大小;同时,也可以方便动态脚本语言的使用,因为数据连同其模式都是自描述的。 当客户端和服务端拥有彼此全部的模式时,不同模式下相同命名字段、丢失字段和附加字段等信息的一致性问题就得到了很好的解决。 * Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。 * * Hadoop培训 Hadoop与子项目介绍 2013.01 * 产生背景 纽约

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档