- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop简介
主要内容
什么是云计算
什么是Hadoop(What)
Hadoop是怎么来的(How Why)
Hadoop经典案例
Hadoop在中国
什么是云计算
Q:大家自己的理解?
1:分布式,多台服务器
2:
3:
什么是云计算
SPI模型
SPI模型从服务和
业务模式的角度看待
云计算,而不是从
技术实现的角度看。
什么是云计算
技术的角度
设备虚拟化
超大规模
无限的存储空间
无限的计算能力
高可靠性
高可扩展性
低成本
每个系统有
自己的硬件、
DBMS、OS;
开发运行平台…
用户做一件事要同时使用三个系统。
硬件平台,软件平台可随业务需要而自动发展。
业务部受硬件,运行平台物理位置,规模的限制。
运行平台
硬件支持
什么是云计算
Server Farm
业务规模扩张时,从Server Farm
中申请新的服务器。业务规模收缩时,
将服务器释放给Server farm。
什么是Hadoop
简述
Hadoop是项目的总称。
主要是由HDFS、MapReduce和HBase组成。
HDFS是Google File System(GFS)的开源实现。
MapReduce是Google MapReduce的开源实现。
HBase是Google BigTable的开源实现。
什么是Hadoop
架构
参考:/view/908354.htm
什么是Hadoop
架构
Hadoop与Google的对应
开发团队
Google
Apache
赞助者
Google
Yahoo, Amazon
算法模型
MapReduce
MapReduce
开放方式
open document
open source
文件系统
GFS
HDFS
结构化存储
big-table
HBase
支持的搜索引擎
Google
nutch
运行平台
Linux
Linux / GPL
Hadoop是怎么来的
天时:
(1)大数据时代,信息爆炸 呼唤 一种新的能处理大数据的技术
(2)Google 2003/2004公布GFS/MapReduce
《The Google File System》
《MapReduce: Simplified Data Processing on Large Clusters》
(3) 2004年 Dong Cutting在做Nutch时遇到性能瓶颈,迫切需要一种分布式系统方法来进行数据存储与查询
——Dong Cutting基于Google公布的算法,花2年时间进行GFS和MapReduce的开源实现,大大提升了Nutch的性能(可基于20台服务器支持几亿行的数据规模)
地利:
(1)美国在大数据走在世界前列
(2)国外在大数据领域创新性强
人和:互联网算法的公开化与开源
Hadoop是怎么来的
2004年 Dong Cutting参考Google Lab的论文做Hadoop
2005年 Added DFS MapReduce implement to Apache Nutch
Nutch 0.8版之后,Hadoop成为独立项目
2006年 Yahoo年雇佣Dong Cutting组队专职开发
-Team member = 14(engineers, clusters, users, etc. )
2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
Hadoop是怎么来的
2007年,百度开始使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理。
2007年,中国移动开始在“大云”研究中使用Hadoop技术,规模超过1000台。
2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB,包含了1100台机器,每天处理约18000道作业,扫描500TB数据。
2008年1月,Hadoop成为Apache顶级项目。
/
Hadoop是怎么来的
Hadoop是怎么来的
2008年2月,Yahoo!宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序 ,比上一年的纪录保持者保持的297秒快了将近90秒。
2009 年 3 月,Cloudera推出CDH(Cloudera’s Distribution including Apache Hadoop)平台,完全由开放源码软件组成,目前已经进入第3版。
2009年7月 ,Hadoop Core项目更名为Hadoo
您可能关注的文档
- 《某家具制造铁柜公司管理体系管理目标、指标分解方案(精品·公开课件).pdf
- 《企业文化》(精品·公开课件).ppt
- 《企业战略管理》第4章企业战略内部环境分析(精品·公开课件).ppt
- 《企业战略管理》第八章企业职能性战略(精品·公开课件).ppt
- 《泸州老窖发展史与企业文化理念》(精品·公开课件).ppt
- 《纽崔莱多种植物蛋白粉产品上市发布会》(精品·公开课件).ppt
- 《企业战略管理》第一章企业战略管理概论(精品·公开课件).ppt
- 《浅谈企业文化》(精品·公开课件).ppt
- 《如何阅读上市公司年报》(精品·公开课件).ppt
- 《软件工程》第2章 可行性分析与软件计划(精品·公开课件).ppt
- 2025年淮南市八公山区招聘社区“两委”后备干部13人备考题库含答案详解(达标题).docx
- 2025年高一上册化学第五单元冲刺卷(苏教版) (17).docx
- 2025年淮南市八公山区招聘社区“两委”后备干部13人备考题库含答案详解(黄金题型).docx
- 2025年淮南市八公山区招聘社区“两委”后备干部13人备考题库含答案详解(轻巧夺冠).docx
- 最新电大《政治经济学》形考作业任务01_05网考试题答案.docx
- 最新电大《政治经济学》形考作业任务01_05网考试题答案.docx
- 最新电大《政治经济学》形考作业任务01_05网考试题答案.docx
- 最新电大《政治经济学》形考作业任务01_05网考试题答案.docx
- 最新电大专科《建筑力学》机考网考题库及答案.docx
- 最新电大《政治经济学》形考作业任务01_05网考试题答案.docx
最近下载
- 新解读《GB_T 39967 - 2021五轴联动加工中心S形试件精度检验》最新解读.pptx VIP
- 全球生物医药产业创新驱动发展白皮书.docx VIP
- 国家开放大学(电大)《人文英语2》2025年期末考试真题含答案.docx VIP
- 生物医药产业创新驱动发展.pptx VIP
- 2026年中考数学压轴题专项练习-倍长中线(学生版+详解版).pdf VIP
- 2026年中考数学压轴题专项练习-倍长中线(学生版).pdf VIP
- 中国生物医药产业分析与趋势.pptx VIP
- 生物医药产业创新趋势分析.pptx VIP
- 生物医药产业趋势分析.pptx VIP
- 船用UG-25+调速器安装调试手册.pdf
原创力文档


文档评论(0)