Hadoop技术体系介绍.docVIP

下载本文档

19
0
约1.69万字
约 29页
2020-10-13 发布于浙江
举报
版权申诉

Hadoop技术体系介绍.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[在此处键入] Hadoop 体系介绍 Hadoop 体系介绍 TOC \o 1-3 \h \z \u 一、背景 4 二、什么是Hadoop 4 2.1、apache hadoop项目 4 2.2、hadoop的优点 5 2.3、Hadoop的使用场景 6 三、Hadoop发展状况及国内外应用情况 6 四、Hadoop文件系统HDFS 7 4.1、HDFS设计目标 7 4.2、HDFS体系结构 8 4.3、HDFS命名空间 9 4.4、HDFS存储原理 9 4.5、数据存取策略 10 4.6、通讯协议 12 4.7、数据错误和异常 12 4.7、HDFS尚未实现的功能总结 13 五、MapReduce、hive和pig 14 5.1、MapReduce 14 5.2、Hive 14 5.3、Pig 16 5.4、Mapreduce、hive和pig对比分析 17 5.4.1、hadoop、hive和pig的性能测试 17 5.4.2、Hive 和Pig对比 21 六、HBASE 22 6.1、HBASE数据模型 22 6.2、HBASE概念视图 23 6.3、HBASE物理视图 24 6.4、HBASE分布式体系结构 24 6.5、Hbase和传统关系数据库的对比分析 25 七、关于Hadoop使用总结 26 7.1、HDFS 26 7.2、MapReduce、HIVE和PIG 27 7.3、HBASE 27 八、关于研究Hadoop的考虑 27 九、参考文献 29 一、背景云计算已经被看作 IT 业的新趋势，分布式计算开源框架Hadoop作为构建云计算平台的技术之一而被广为关注。在公司，目前Hadoop已经在很多项目中用作海量数据存储、数据检索和统计分析技术。顺应技术发展趋势，掌握热门的新技术为公司关键项目提供技术保障，研究hadoop势在必行。二、什么是Hadoop 2.1、apache hadoop项目 Hadoop是Apache开源组织的一个分布式计算开源框架，基于 Hadoop可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 由Doug Cutting（道格·卡廷）在2004年开始开发并于2005年秋天作为Nutch的一部分被正式引入到Apache。Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最核心的成员，其结构如下图所示：图 2-1 Hadoop子项目组成 Core：一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构)，2009年7月core被更名为common。 Avro：一种提供高效、跨语言RPC的数据序列系统，持久化数据存储。 MapReduce：分布式数据处理模式和执行环境，运行于大型商用机集群。 HDFS：分布式文件系统，运行于大型商用机集群。 Pig：一种数据流语言和运行环境，用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。 Hbase：一个分布式的、列存储数据库。HBase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询(随机读取)。 ZooKeeper：一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 Hive：分布式数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 Chukwa：分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器，它使用MapReduce来生成报告。 2.2、hadoop的优点可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。 2.3、Hadoop的使用场景 Google最早提出MapReduce是为了海量数据分析，作为google MapReduce的开源实现Hadoop MapReduce的最佳使用场景也是海量数据分析。海量数据存储于HDFS中被分割于多个节点，然后由每一个节点并行计算，