Hadoop知识点总结_原创精品文档.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Hadoop知识点总结--第1页

Hadoop

第一章

1、三次信息化浪潮涉及的三个标志:

信息化浪潮发生时间标志解决问题代表企业

第一次浪潮1980年前后个人计算机信息处理ntel、AMD、IBM、苹果、

微软、联想、戴尔、惠

普等

第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、

百度、腾讯等

第三次浪潮2010年前后物联网、云计算和大数信息爆炸Facebook、亚马逊

2、大数据中典型特点:并行计算、分布式系统

3、大数据有哪些特点:数据量大、数据类型繁、处理速度快、价值密度低

4、批处理涉及哪些工具(产品):流计算、图计算、查询分析

第二章

1、Hadoop是一个开源的分布式计算平台,基于Java语言开发的,Hadoop的核心是分布式

文件系统HDFS和MapReduce

2、Hadoop的优点(特性):(1)高可靠性(2)高效性(3)高可扩展性(4)高容错性(5)

成本低(6)运行在Linux平台上(7)支持多种编程语言

3、Pig和Hive之间有什么关系:

(1)Hive是建立在Hadoop上的数据仓库基础架构

(2)Pig是一个基于Hadoop的大规模数据分析平台

4、Hadoop集群有哪些节点类型,各节点有什么作用:

(1)NameNode:负责协调集群中的数据存储

(2)DataNode:存储被拆分的数据块

(3)JobTracker:协调数据计算任务

(4)TaskTracker:负责执行由JobTracker指派的任务

(5)SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息

第三章HDFS

1、架构(结构):分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这

些节点分为两类,一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),

另一类叫“从节点”(SlaveNode)或者也被称为“数据节点”(DataNode)。

2、HDFS优势(特点,实现目标):

(1)兼容廉价的硬件设备

(2)流数据读写

Hadoop知识点总结--第1页

Hadoop知识点总结--第2页

(3)大数据集

(4)简单的文件模型

(5)强大的跨平台兼容性

3、HDFS局限性:

(1)不适合低延迟数据访问

(2)无法高效存储大量小文件

(3)不支持多用户写入及任意修改文件

4、“块”默认大小为64MB

5、HDFS采用“块”有什么好处:

(1)支持大规模文件存储:文件以块为单位进行存储,一个大规模文件可以被分拆成若干

个文件块,不同的文件块可以被分发到不同的节点上,因此,一个文件的大小不会受到单个

节点的存储容量的限制,可以远远大于网络中任意节点的存储容量

(2)简化系统设计:首先,大大简化了存储管理,因为文件块大小是固定的,这

文档评论(0)

159****2063 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档