第13章GoogleDremel - 厦门大学数据库实验室 数据驱动.PDFVIP

第13章GoogleDremel - 厦门大学数据库实验室 数据驱动.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第13章GoogleDremel - 厦门大学数据库实验室 数据驱动

厦门大学计算机科学系研究生课程 《大数据技术基础》 第13章Google Dremel (2013年新版) 林子雨 厦门大学计算机科学系 E-mail: ziyulin@ 主页:/linziyu 《大数据技术基础》 厦门大学计算机科学系厦门大学计算机系 林子雨 ziyulin@2013年新版 2013年9月修订版 提纲 Dremel概述:  大规模数据分析  Dremel的特点 Dremel的数据模型 嵌套列状存储:  重复深度和定义深度  分割记录为列状存储  记录装配 查询语言 QUERY的执行  小结 本讲义PPT存在配套教材,由林子雨通过大量 阅读、收集、整理各种资料后编写而成 下载配套教材请访问 《大数据技术基础》2013 班级网站:/node/423 《大数据技术基础》 厦门大学计算机系 林子雨 ziyulin@ 2013年9月修订版 Dremel 概述 Dremel是一种可扩展的、交互式的即时查询系统,用 于只读嵌套(nested)数据的分析。通过结合多级树状执 行过程和列状数据结构,它能做到几秒内完成对万亿张表 的聚合查询。系统可以扩展到成千上万的CPU上,满足 Google上万用户操作PB级的数据。在本章中,我们将描 述Dremel的架构和实现。此外我们也描述了一种新的针对 嵌套记录的列存储形式。 《大数据技术基础》 厦门大学计算机系 林子雨 ziyulin@ 2013年9月修订版 大规模数据分析 大规模分析型数据处理在互联网公司乃至整个行业中都已经 越来越广泛。不仅仅是因为目前已经可以用廉价的存储来收 集和保存海量的核心业务数据。 执行大规模交互式数据分析对并行计算能力要求很高。 互联网和科学计算中的数据经常是没有关联的。因此,在这 些领域一个灵活的数据模型是十分必要的。规格化、重新组 合这些互联网规模的数据通常是十分耗时的。嵌套数据模型 成为了Google处理大部分结构化数据基础。 《大数据技术基础》 厦门大学计算机系 林子雨 ziyulin@ 2013年9月修订版 Dremel的特点 (1)Dremel是一个大规模、稳定的系统。在一个PB级别的数 据集上面,将任务缩短到秒级,无疑需要大量的并发。Google 一向是用廉价机器办大事的好手。但是机器越多,出问题概率 越大,如此大的集群规模,需要有足够的容错考虑,保证整个 分析的速度不被集群中的个别慢(坏)节点影响。 (2 )Dremel是MR交互式查询能力不足的补充。和 MapReduce一样,Dremel也需要和数据运行在一起,将计算移 动到数据上面。在设计之初,Dremel并非是MapReduce的替代 品,它只是可以执行非常快的分析,在使用的时候,常常用它 来处理MapReduce的结果集或者用来建立分析原型。 《大数据技术基础》 厦门大学计算机系 林子雨 ziyulin@ 2013年9月修订版 Dremel的特点 (3 )Dremel的数据模型是嵌套(nested)的。互联网数据常常 是非关系型的。Dremel还需要有一个灵活的数据模型,这个数 据模型至关重要。而传统的关系模型,由于不可避免的有大量 的Join操作,在处理如此大规模的数据的时候,往往是有心无 力的。 (4 )D

文档评论(0)

ldj215322 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档