诞生开源大数据生态圈.pptVIP

下载本文档

12
0
约3.8千字
约 13页
2017-09-11 发布于天津
举报
版权申诉

诞生开源大数据生态圈.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

诞生开源大数据生态圈

开源大数据生态圈 * 后来：谷歌 NoSQL引领着IT界时尚圈，几乎家喻户晓；低延迟的大数据分析项目在开源界刚出现没多久，谷歌又烧了第三把火。这次它发表的两篇论文是： 1. 《F1 - The Fault-Tolerant Distributed RDBMS Supporting Googles Ad Business》 2. 《Spanner: Googles Globally-Distributed Database》 . 多年以来，很多人以NoSQL为时尚。到后来才发现，原来谷歌早就在用SQL语句自如地访问自己的MPP数据库：F1和Spanner了 . NoSQL定义曾经有很多版本，谷歌的最新定义是：No Time to Support SQL * * 1. 后来很多人把第四个V替换成Veracity：可信度 1. 举例：语音识别的训练数据。把用户的数据都找到，效果一定错不了！ 1. 3稍晚，2006年发布。 2. 中国某著名互联网企业，还写过一些关于Hypertable的文章。 Hypertable成立了同名的公司来运营，在强大的Hadoop生态圈面前，前途未卜。 1. Hive 是基于Hadoop MapReduce框架，支持SQL语句。不过，Hive不适合低延迟的应用场景，这种场景需要实时计算框架。 1. 避免分配Server 负担过重。早期版本的缺省值是每隔三秒，后来调低了。 2. 大家知道，在PC机上每启动一个JVM进程大约需要一两秒，而这里是5、6次之多。 3. 有的人观察到在Map Task执行到一半的时候，Reduce Task已经开始运行了。这是因为拷贝同一Partition的Map Result这个过程可以与Map同步，但Reduce过程只能是Map Result都Available之后才开始。 1. 这时候，我们发现谷歌它居然没有为了高扩展性而牺牲实时性。 2. 可怕的是，这篇论文安安静静地躺在谷歌总部，一躺就是四年。在这段时间，有的人在优化Hadoop MapReduce，而且还拿着了投资。其他人则告诉自己：这就是NoSQL的魅力所在，等待也是一种美。 1 MapR Drill提交到了Apache社区，变成了Apache Drill。貌似还在Design Plan Language，更新比较慢。 2. HBase Coprocessor于12年初被实现，基于Google Bigtable Coprocessor思想 (2006年)。 3. 从图中可以看出，Cloudera Impala和HBase Coprocessor都采用了与Google Dremel类似的运行架构：把计算推到距离数据最近的地方。 1. 这两篇论文发表于2012年。 2. NoSQL：没有SQL支持、一致性、多表关联等特性。支持海量数据的读或写，支持廉价PC Server集群。 3. Spanner未来的规模将达到100万台服务器，支持上亿的客户端。 1. 到现在为止，没有发现类似的开源项目。 1. 谷歌点火，大家花了几年以为跟上了 2. 谷歌再放火，大家这才发现原来差距变大了 3. 大家还没来得及追，谷歌又放火，这个跑道上连人影都没见着 1. 提这几个开源数据库项目，是因为它们同大数据有点小渊源。 2. MySQL在许多成功的互联网企业得到广泛运用，他们用得最多的词就是：Shading。 3. MonetDB和PostgreSQL在商用的MPP DW产品中都出现过。它们被部署在计算节点上，负责计算节点的存储和计算工作。 * 业界大数据BI发展分享目录 * 1. 大数据背景 2. 开源大数据生态圈和商用大数据生态圈 3. 开源前端生态圈和商用前端生态圈 4. 大数据BI系统的底层技术 5. 建设大数据BI系统的思考大数据背景 * 大数据的4V 1. 数据量大(Volume) 2. 速度快(Velocity) 3. 类型多(Variety) 4. 价值密度低(Veracity) 大数据背景 * 更多的数据？谷歌自始至终都认为数据是越多越好，用谷歌产品研发总监Peter Norvig的话就是：更多的数据胜过更好的算法开源大数据生态圈 * 诞生：谷歌大数据领袖谷歌，于2003年起发布一系列论文: 1. 《The Google File System 》 2. 《MapReduce: Simplified Data Processing on Large Clusters》 3. 《Bigtable: A Distributed Storage System for Structured Data》战火被点燃