诞生开源大数据生态圈.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
诞生开源大数据生态圈

开源大数据生态圈 * 后来:谷歌 NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是: 1. 《F1 - The Fault-Tolerant Distributed RDBMS Supporting Googles Ad Business》 2. 《Spanner: Googles Globally-Distributed Database》 . 多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了 . NoSQL定义曾经有很多版本,谷歌的最新定义是:No Time to Support SQL * * 1. 后来很多人把第四个V替换成Veracity:可信度 1. 举例:语音识别的训练数据。把用户的数据都找到,效果一定错不了! 1. 3稍晚,2006年发布。 2. 中国某著名互联网企业,还写过一些关于Hypertable的文章。 Hypertable成立了同名的公司来运营,在强大的Hadoop生态圈面前,前途未卜。 1. Hive 是基于Hadoop MapReduce框架,支持SQL语句。 不过,Hive不适合低延迟的应用场景,这种场景需要实时计算框架。 1. 避免分配Server 负担过重。 早期版本的缺省值是每隔三秒,后来调低了。 2. 大家知道,在PC机上每启动一个JVM进程大约需要一两秒,而这里是5、6次之多。 3. 有的人观察到在Map Task执行到一半的时候,Reduce Task已经开始运行了。这是因为拷贝同一Partition的Map Result这个过程可以与Map同步,但Reduce过程只能是Map Result都Available之后才开始。 1. 这时候,我们发现谷歌它居然没有为了高扩展性而牺牲实时性。 2. 可怕的是,这篇论文安安静静地躺在谷歌总部,一躺就是四年。 在这段时间,有的人在优化Hadoop MapReduce,而且还拿着了投资。 其他人则告诉自己:这就是NoSQL的魅力所在,等待也是一种美。 1 MapR Drill提交到了Apache社区,变成了Apache Drill。貌似还在Design Plan Language,更新比较慢。 2. HBase Coprocessor于12年初被实现,基于Google Bigtable Coprocessor思想 (2006年)。 3. 从图中可以看出,Cloudera Impala和HBase Coprocessor都采用了与Google Dremel类似的运行架构:把计算推到距离数据最近的地方。 1. 这两篇论文发表于2012年。 2. NoSQL:没有SQL支持、一致性、多表关联等特性。支持海量数据的读或写,支持廉价PC Server集群。 3. Spanner未来的规模将达到100万台服务器,支持上亿的客户端。 1. 到现在为止,没有发现类似的开源项目。 1. 谷歌点火,大家花了几年以为跟上了 2. 谷歌再放火,大家这才发现原来差距变大了 3. 大家还没来得及追,谷歌又放火,这个跑道上连人影都没见着 1. 提这几个开源数据库项目,是因为它们同大数据有点小渊源。 2. MySQL在许多成功的互联网企业得到广泛运用,他们用得最多的词就是:Shading。 3. MonetDB和PostgreSQL在商用的MPP DW产品中都出现过。它们被部署在计算节点上,负责计算节点的存储和计算工作。 * 业界大数据BI发展分享 目录 * 1. 大数据背景 2. 开源大数据生态圈和商用大数据生态圈 3. 开源前端生态圈和商用前端生态圈 4. 大数据BI系统的底层技术 5. 建设大数据BI系统的思考 大数据背景 * 大数据的4V 1. 数据量大(Volume) 2. 速度快(Velocity) 3. 类型多(Variety) 4. 价值密度低(Veracity) 大数据背景 * 更多的数据? 谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监Peter Norvig的话就是:更多的数据胜过更好的算法 开源大数据生态圈 * 诞生:谷歌 大数据领袖谷歌,于2003年起发布一系列论文: 1. 《The Google File System 》 2. 《MapReduce: Simplified Data Processing on Large Clusters》 3. 《Bigtable: A Distributed Storage System for Structured Data》 战火被点燃

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档