大数据的起源.docxVIP

下载本文档

13
0
约3.53千字
约 4页
2018-10-31 发布于河北
举报
版权申诉

大数据的起源.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据的起源

大数据的起源我今天给大家讲的主题是大数据，大数据是前几年特别火的一个话题，但是近两年被人工智能取代了。今天，我就跟你聊聊大数据的前生今世，大数据是怎么诞生的、怎么发展的，将来会是什么样。人们通常认为，大数据起源于谷歌的“三驾马车”：谷歌文件系统、MapReduce和 BigTable，这三篇论文分别发表于 2003年、2004年和 2007年。2007年亚马逊也发表了一篇关于 Dynamo系统的论文。这几篇论文奠定了大数据时代的基础。为什么因为 Google发表了三篇论文，就有了“大数据”的概念呢？原因众说纷纭。我个人的理解是这样的：Google作为互联网泡沫破灭后第一次上市的大型 IT公司，它的市值在上市之后飞速增长。原因在于，Google的广告业务做得非常成功，而广告业务成功的很大一部分原因是它用了大数据技术。当时，很多相关的互联网企业因此都认为大数据是改变自己命运的机会，因此纷纷加入大数据圈子，入局的有微软、阿里巴巴、雅虎、Facebook、LinkedIn、Twitter等公司。抱团取暖的 Hadoop 生态圈 2008年的时候，大部分公司围绕在一个叫作 Hadoop的项目周围，这个项目最初开始于 2006年 1月，是“大数据之父”道格 · 卡丁（Doug Cutting）把他对谷歌文件系统、MapReduce的实现，从爬虫项目 Nutch里独立出来形成的。Hadoop的主要贡献者是雅虎，Facebook、LinkedIn、Twitter等公司也都贡献了一些影响深远的项目。 Hadoop系统，在 2008年 6月就比较稳定了。当时 Hadoop并不是很有名，我之所以知道这个事情，是因为我那个时候正在 IBM研究院实习，而我实习的组是 IBM内部两个最早开始使用 Hadoop做研发的组之一。当时我参加了一次 Hadoop在硅谷的活动，这个活动上雅虎的 Hadoop开发人员非常兴奋，因为他们第一次拿到了全球排序算法的冠军。那个会场设置在雅虎，Facebook、LinkedIn和 Twitter的人也都出席了。这些公司除了对 Hadoop的贡献以外，雅虎贡献了 Pig、Facebook贡献了 Hive、LinkedIn贡献了 Kafka、Twitter贡献了 Storm。今天去看雅虎，你可能觉得雅虎这个公司已经算是倒闭了，一无是处。但是在 2008年到 2009年的时候，雅虎看起来是非常成功的。雅虎曾经是“互联网第一股”，引领了互联网门户时代的发展。所以那个时候，雅虎自然成了其他互联网初创公司的中心，由它主导大家一起来“造一个轮子”，让这些互联网公司有一套可以和 Google的“三驾马车”相媲美的系统。为什么这些公司没有信心单干，自己独立做一套呢？我想主要原因是，这些公司都意识到自己的技术实力和 Google相比差距巨大。自己造轮子的微软和阿里巴巴 Hadoop以外的系统主要有两个：一个是微软自己研发的 Cosmos，中文叫作“宇宙”；另外一个系统是阿里巴巴的 ODPS。微软自己研发 Cosmos的原因很简单：一方面，微软当时和开源社区关系不好，无法和雅虎一起合作；另一方面，微软当时虽然是“帝国没落”，但仍感觉自己很厉害，有信心凭借一己之力“造轮子”。我当时正在 Cosmos组，整个 Cosmos的技术架构有很多方面像谷歌。当时我们每个新人入门的时候，组内资深老人总是把谷歌的几篇论文给新人，帮助他们入门。可见微软虽然觉得自己厉害，但是没能改变参考谷歌系统的本质。阿里巴巴在决定做大数据的时候，实际上成立了两个团队：一个是在 Hadoop基础上做开源系统，另一个是自研一套叫作 ODPS的系统。两边都投入很多人，但是最后 ODPS得到了大力支持，Hadoop团队衰弱了。一场大论战 2008年的大数据圈里发生了一次非常引人瞩目的事件。这次事件的一方是数据库领域的元老级人物迈克尔 · 斯通布雷克（Michael Stonebraker）和大卫 · 德威特（David Dewitt），另外一方是主导了谷歌技术发展的杰夫 · 迪恩（Jeff Dean）。这两群人就谷歌“三驾马车”之一的 MapReduce是创新还是倒退，争得不可开交。传统数据库一方以一篇“MapReduce：一个巨大的倒退”（MapReduce：a Step Backward）博文掀起了这场论战。他们认为 MapReduce是数据库领域的人早就淘汰了的，不值一提。但是谷歌那批人觉得 MapReduce是一个伟大的发明。此次事件影响深远，但是当时双方的观点都太绝对了。在我看来，两方面都有道理，但是两方面谁都没有看到对方正确的地方。业界有些人则看明白了，并经过论证和思考开发了新系统，比如 Spark。 Hadoop的生意经当一个开源的产品做得越来越