- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop快速入门第一讲 Hadoop起源、体系结构以及生态圈介绍讲师:gerry (北风网版权所有)上海育创网络科技有限公司课程简介 本课程面向下列类型的学员:熟悉Java开发,对Linux系统有一定的了解,想了解Hadoop生态圈的学员。本课程站在想入门hadoop开发的立场和视角,从零开始学习hadoop生态圈知识,详细介绍各个不同组件的安装、使用等情况,从最基本的环境搭建开始,讲解hadoop生态圈知识,学习完本课程后,学员基本对hadoop生态圈有一定的了解,并且对hadoop的基本开发有一个了解。Hadoop出现的前提环境 在最近十年,数据量在以几何倍数来增长,随着企业产生并收集的数据越来越多,他们对于数据的认识也就越来越看重,但是这样就带来了几个问题:怎样才能存储大量的数据?怎样处理它们?怎样高效地分析它们?既然数据会增加,又如何构建一个可扩展的解决方案?在一起,对于数字信息的快速增长带来的问题,开发人员一般采用在单台机器上增加更多的存储、处理能力和内存等各个不同方面的指标,但是最终发现随着数据量的继续增加,单台机器的处理能力完全跟不上。随着时间的推移,有提出了分布式系统(通过多台计算机分布任务),但是分布式系统的数据分析解决方案往往很复杂,并且容易出错,甚至速度不够快。Hadoop起源里程1 2002年的时候Doug Cutting在开发Nutch项目的时候发现数据的存储和处理需要一个可靠的、分布式计算的框架系统。 2003年google发布关于谷歌文件系统(GFS)和MapReduce的论文,Doug Cutting在这些论文的基础上,为Nutch构建了分布式平台(MR+NDFS),也就是后来的我们所熟知的hadoop分布式文件系统(HDFS)和MapReduce。 2006年Yahoo聘请了Doug Cutting,并从Nutch项目中抽取出来了Hadoop,并将之发展成为可在网络上运行的系统。同年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。Hadoop起源里程2 2007年,百度开始使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理。 2008年,淘宝开始投入研究基于Hadoop的系统——云梯。一千多台机器,每天差不多500t的数据量。 2008年1月,Hadoop成为Apache顶级项目。 2009年,Hadoop项目第一次架构修改,hdfs和mapreduce等模块成为hadoop的独立模块。 2010年,hbase、hive、avro、zookeeper等脱离hadoop,成为Apache顶级项目。 2012年,开始hadoop2版本开发;2014年hadoop2x稳定版本发行。Hadoop相比于之前的分布式系统的优缺点 Hadoop使用大量廉价的计算机,提供了一个可扩展强、可靠性强的机制,并利用廉价的方式来存储大量数据。之前的分布式系统一般需要比较高要求的机器来进行系统搭建。 区别: Hadoop集群的数据先进行分布式存储。 Hadoop通过在集群上备份多份数据,从而来提供可靠性和实用性。 Hadoop提供了一个简单的计算框架来供程序员操作数据。 Hadoop扩展性强,扩展容易。 .........Hadoop使用案例 现在使用Hadoop生态圈的案例或者公司越来越多,主要包括以下几种: 1. 为银行和信用卡公司增强欺诈性检测 2. 社交媒体市场分析 3. 零售行业购物模式分析 4. 城市发展的交通模式识别 5. 网络分析和调解 6. 大数据转换 .......Hadoop生态圈 相比于一般的软件工具:tomcat、mysql等,它们的功能比较单一。但是由于hadoop包含大量工具,可以完成许多事情,包括:数据管理功能、大规模并行处理框架等。虽然hadoop提供了这么多的功能,但是仍然应该把它归类为多个组件组成的Hadoop生态圈,这些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专门工具。Hadoop生态圈-图1Hadoop生态圈-图2Hadoop核心组件/体系结构 抛除Spark、Storm等内存/实时计算框架以及Hadoop相关安全框架外,Hadoop生态圈剩下的就是hadoop生态圈的基本组件。Hadoop版本信息 Hadoop是一款开源软件,并且开源社区比较活跃,所以Hadoop的版本也就比较多,主要是三大版本: 1. Apache Hadoop版本(社区版本),迭代周期较短,更新较快,完全免费。 2. Cloudera Hadoop版本(CDH),在社区版本的基础上进行了一些patch的合并,同时针对hadoop生态圈进行了软件兼容的调整。包括个人免费版本和企业版本,个人免费版本支持50个节点的集群管理。 3
您可能关注的文档
最近下载
- 2021年国开学习网电大物流管理基础形考作业4答案.docx VIP
- 《工程测量通用规范》GB55018-2021(书签).pdf VIP
- 2024版微生物实验室基本知识与安全教育(通用).ppt VIP
- 苏教版小学数学一年级上册期末试卷.doc VIP
- 新21XJ004住宅排气道.docx VIP
- FANUC工业机器人系统集成与应用 第3章FANUC工业机器人远程控制.pptx VIP
- 小学数学苏教版一年级下册期末试卷.doc VIP
- 中小学教师继续教育通识知识考试试题(含答案).pdf VIP
- 裁切机的安全操作规程.doc VIP
- 3.2 细胞膜的结构和功能课件(共26张PPT)人教版高中生物学必修1.pptx VIP
文档评论(0)