Hadoop开发案例第1章 Hadoop概述.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
引言 继云计算技术之后,大数据时代快速来临,充斥着世界的每个角落,发展势头盖过任何一门技术。以Hadoop为首的大数据平台为大数据掀起一阵狂潮,也让全世界认识了道格.卡丁(见图1-1)以及大数据带给人类的贡献。并随之着世界上的IT巨头企业分别研发出同类大数据平台,再次把大数据应用推上高潮。本章通过对Hadoop的简介、Hadoop来源、Hadoop发展史和特点、Hadoop体系架构以及HDFS体系结构,让读者对Hadoop有一个初步的认识。 Hadoop简介 Hadoop 是一个由 Apache 基金会开发的开源软件, 具有可靠性、扩展性的分布式的计算存储系统,标识性Logo 为一个黄色小象。 Hadoop来源 Hadoop 这个名字不是常见的几个单词的缩写,而是由道格·卡丁虚构的一个名字。道 格·卡丁曾解释 Hadoop 的由来:“这个名字是我孩子给一个棕黄色的大象玩具的起名。命 名的标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰 恰是这方面的高手”。道格·卡丁是 Lucene、Nutch 、Hadoop 等项目的发起人。 Hadoop来源 Hadoop的出现来自Google的两款产品:GFS和MapReduce。GFS用于存储不同设备所产生的海量数据,可以解决在网络抓取和索引过程中产生的大文件存储问题。MapReduce是运行在GFS之上,负责分布式大数据的计算,可以处理海量网页的索引问题。MapReduce框架解决问题的思路就是把一个应用程序分解为许多并行的计算指令,通过大量的计算节点运行指令并产生非常巨大的数据集。后来由ASF公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。 2006年3月份,Map/Reduce和Nutch分布式文件系统(NutchDistributed File System,NDFS)分别被纳入称为Hadoop的项目中。Hadoop主要由HDFS、MapReduce和Hbase组成。 Hadoop项目   Hadoop Common:支撑其他模块。  Hadoop Distributed File System:分布式系统对应用提供高吞吐量的访问。  Hadoop Yarn:资源管理和任务调度的一个框架。  Hadoop MapReduce:能够并行处理大数据集的 Yarn 基本系统。 Hadoop发展史 2002 年,Hadoop 起始于 Apache 项目的 Nutch。 2003 年,Google 发布关于 GFS 的论文。 2004 年,Nutch 的开发者开发了 NDFS。 2004 年,Google 发表了关于 MapReduce 的论文。 2004 年,由道格·卡丁开发了现在 HDFS 和 MapReduce 的最初版本。 2005 年,MapReduce 被引入 NDFS。 2005 年 12 月,Nutch 移植到新框架,Hadoop 在 20 个节点上稳定运行。 2006 年 1 月,道格·卡丁加入 Yahoo!。 2006 年 2 月,Apache Hadoop 项目正式启动以支持 MapReduce 和 HDFS 的独立发展。 2006 年 2 月,Yahoo!的网格计算团队采用 Hadoop。 2006 年 4 月,在 188 个节点上(每个节点 10 GB)运行排序测试需要 47.9 小时。 2006 年 5 月,Yahoo!建立了一个 300 个节点的 Hadoop 研究集群。 等 Hadoop特点 (1)高可扩展性。 (2)成本效益良好。 (3)灵活性更好。 (4)Hadoop 处理更快。 (5)容错能力强。 Hadoop特点 (1)高可扩展性。 Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行 操作的廉价的服务器数据集群。能可靠地(reliably)存储和处理千兆字节 (PB)数据。不同于传统的关系型数据库系统不能扩展到处理大量的数据, Hadoop是能给企业提供涉及成百上千TB的数据节点上运行的应用程序。 Hadoop特点 (2)成本效益良好。 Hadoop为企业用户提供了极具成本效益的存储解决方案。传统的关系型数据库管理系统的问题是不符合海量数据的处理器,不能够符合企业的成本效益。Hadoop的架构则不同,其被设计为一个向外扩展的架构,可以经济的存储所有公司的数据供以后使用,节省的费用是非常惊人的,Hadoop提供数百TB的存储和计算能力。 可以通过普通机器组成的服务器群来分发以及处理任务数据。这些服务器群总计可达数千个节点,甚至更多。与一体机、商用数据仓库相比,Hadoop是开源的,项目的软件成本因此会大大降低 Hadoo

文档评论(0)

132****9295 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档