大数据的起源.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的起源

大数据的起源 我今天给大家讲的主题是大数据,大数据是前几年特别火的一个话题,但是近两年被人工智能取代了。今天,我就跟你聊聊大数据的前生今世,大数据是怎么诞生的、怎么发展的,将来会是什么样。 人们通常认为,大数据起源于谷歌的“三驾马车”:谷歌文件系统、MapReduce和 BigTable,这三篇论文分别发表于 2003年、2004年和 2007年。2007年亚马逊也发表了一篇关于 Dynamo系统的论文。这几篇论文奠定了大数据时代的基础。 为什么因为 Google发表了三篇论文,就有了“大数据”的概念呢?原因众说纷纭。我个人的理解是这样的:Google作为互联网泡沫破灭后第一次上市的大型 IT公司,它的市值在上市之后飞速增长。原因在于,Google的广告业务做得非常成功,而广告业务成功的很大一部分原因是它用了大数据技术。当时,很多相关的互联网企业因此都认为大数据是改变自己命运的机会,因此纷纷加入大数据圈子,入局的有微软、阿里巴巴、雅虎、Facebook、LinkedIn、Twitter等公司。 抱团取暖的 Hadoop 生态圈 2008年的时候,大部分公司围绕在一个叫作 Hadoop的项目周围,这个项目最初开始于 2006年 1月,是“大数据之父”道格 · 卡丁(Doug Cutting)把他对谷歌文件系统、MapReduce的实现,从爬虫项目 Nutch里独立出来形成的。Hadoop的主要贡献者是雅虎,Facebook、LinkedIn、Twitter等公司也都贡献了一些影响深远的项目。 Hadoop系统,在 2008年 6月就比较稳定了。当时 Hadoop并不是很有名,我之所以知道这个事情,是因为我那个时候正在 IBM研究院实习,而我实习的组是 IBM内部两个最早开始使用 Hadoop做研发的组之一。当时我参加了一次 Hadoop在硅谷的活动,这个活动上雅虎的 Hadoop开发人员非常兴奋,因为他们第一次拿到了全球排序算法的冠军。那个会场设置在雅虎,Facebook、LinkedIn和 Twitter的人也都出席了。这些公司除了对 Hadoop的贡献以外,雅虎贡献了 Pig、Facebook贡献了 Hive、LinkedIn贡献了 Kafka、Twitter贡献了 Storm。 今天去看雅虎,你可能觉得雅虎这个公司已经算是倒闭了,一无是处。但是在 2008年到 2009年的时候,雅虎看起来是非常成功的。雅虎曾经是“互联网第一股”,引领了互联网门户时代的发展。所以那个时候,雅虎自然成了其他互联网初创公司的中心,由它主导大家一起来“造一个轮子”,让这些互联网公司有一套可以和 Google的“三驾马车”相媲美的系统。 为什么这些公司没有信心单干,自己独立做一套呢?我想主要原因是,这些公司都意识到自己的技术实力和 Google相比差距巨大。 自己造轮子的微软和阿里巴巴 Hadoop以外的系统主要有两个:一个是微软自己研发的 Cosmos,中文叫作“宇宙”;另外一个系统是阿里巴巴的 ODPS。 微软自己研发 Cosmos的原因很简单:一方面,微软当时和开源社区关系不好,无法和雅虎一起合作;另一方面,微软当时虽然是“帝国没落”,但仍感觉自己很厉害,有信心凭借一己之力“造轮子”。 我当时正在 Cosmos组,整个 Cosmos的技术架构有很多方面像谷歌。当时我们每个新人入门的时候,组内资深老人总是把谷歌的几篇论文给新人,帮助他们入门。可见微软虽然觉得自己厉害,但是没能改变参考谷歌系统的本质。 阿里巴巴在决定做大数据的时候,实际上成立了两个团队:一个是在 Hadoop基础上做开源系统,另一个是自研一套叫作 ODPS的系统。两边都投入很多人,但是最后 ODPS得到了大力支持,Hadoop团队衰弱了。 一场大论战 2008年的大数据圈里发生了一次非常引人瞩目的事件。这次事件的一方是数据库领域的元老级人物迈克尔 · 斯通布雷克(Michael Stonebraker)和大卫 · 德威特(David Dewitt),另外一方是主导了谷歌技术发展的杰夫 · 迪恩(Jeff Dean)。这两群人就谷歌“三驾马车”之一的 MapReduce是创新还是倒退,争得不可开交。 传统数据库一方以一篇“MapReduce:一个巨大的倒退”(MapReduce:a Step Backward)博文掀起了这场论战。他们认为 MapReduce是数据库领域的人早就淘汰了的,不值一提。但是谷歌那批人觉得 MapReduce是一个伟大的发明。 此次事件影响深远,但是当时双方的观点都太绝对了。在我看来,两方面都有道理,但是两方面谁都没有看到对方正确的地方。业界有些人则看明白了,并经过论证和思考开发了新系统,比如 Spark。 Hadoop的生意经 当一个开源的产品做得越来越

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档