- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录2.1Google文件系统GFS2.2分布式数据处理MapReduce2.3分布式锁效劳Chubby2.4分布式结构化数据表Bigtable2.5分布式存储系统Megastore2.6大规模分布式系统的监控根底架构Dapper2.7海量数据的交互式分析工具Dremel2.8内存大数据分析系统PowerDrill2.9Google应用程序引擎
数据本身不会产生价值只有经过分析才有可能产生价值
2.7海量数据的交互式分析工具Dremel2.7.1产生背景2.7.2数据模型2.7.3嵌套式的列存储2.7.4查询语言与执行2.7.5性能分析2.7.6小结
4产生背景2.7海量数据的交互式分析工具DremelMapReduce优点:便携缺点:效率低
2.7海量数据的交互式分析工具DremelDremel支持的典型应用Web文档的分析Android市场的应用安装数据的跟踪Google产品的错误报告Google图书的光学字符识别欺诈信息的分析Google地图的调试Bigtable实例上的tablet迁移Google分布式构建系统的测试结果分析磁盘I/O信息的统计Google数据中心上运行任务的资源监控Google代码库的符号和依赖关系分析5
2.7海量数据的交互式分析工具Dremel2.7.1产生背景2.7.2数据模型2.7.3嵌套式的列存储2.7.4查询语言与执行2.7.5性能分析2.7.6小结
7一方面:统一的存储平台另一方面:统一的数据存储格式实现高效的数据存储,Dremel使用的底层数据存储平台是GFS存储的数据才可以被不同的平台所使用2.7海量数据的交互式分析工具Dremel
82.7海量数据的交互式分析工具Dremel面向记录和面向列的存储Google的Dremel是第一个在嵌套数据模型根底上实现列存储的系统。列存储更利于数据的压缩处理时只需要使用涉及的列数据好处一:好处二:
92.7海量数据的交互式分析工具Dremel嵌套模型的形式化定义原子类型〔AtomicType〕原子类型允许的取值类型包括整型、浮点型、字符串等记录类型〔RecordType〕记录类型那么可以包含多个域记录型数据包括三种类型:必须的〔Required〕、可重复的〔Repeated〕以及可选的〔Optional〕
102.7海量数据的交互式分析工具Dremel嵌套结构的模式和实例文档的模式〔Schema〕定义符合该模式的两条记录利用该数据模型,可以使用Java语言,也可以使用C++语言来处理数据,甚至可以用Java编写的MapReduce程序直接处理C++语言产生的数据集。这种跨平台的优良特性正是Google所需要的。
2.7海量数据的交互式分析工具Dremel2.7.1产生背景2.7.2数据模型2.7.3嵌套式的列存储2.7.4查询语言与执行2.7.5性能分析2.7.6小结
122.7海量数据的交互式分析工具Dremel数据结构的无损表示带有重复深度和定义深度的r1与r2的列存储重复深度主要关注的是可重复类型,而定义深度同时关注可重复类型和可选类型〔optional〕每一列最终会被存储为块〔Block〕的集合,每个块包含重复深度和定义深度且包含字段值。
132.7海量数据的交互式分析工具Dremel高效的数据编码计算重复和定义深度的根底算法Dremel利用图中算法创立一个树状结构树的节点为字段的writer,它的结构与模式中的字段层级匹配。核心的想法是只在字段writer有自己的数据时执行更新,非绝对必要时不尝试往下传递父节点状态。子节点writer继承父节点的深度值。当任意值被添加时,子writer将深度值同步到父节点。
142.7海量数据的交互式分析工具Dremel数据重组Dremel数据重组方法的核心思想是为每个字段创立一个有限状态机〔FSM〕,读取字段值和重复深度,然后顺序地将值添加到输出结果上。
15当前FSM写入值下一个重复深度值动作DocId(开始)100跳转至Links.BackwardLinks.BackwardNULL0跳转至Links.ForwardLinks.Forward201停留在Links.ForwardLinks.Forward401停留在Links.ForwardLinks.Forward600跳转至Name.Language.CodeName.Language.Codeen-us2跳转至Name.Language.CountryName.Language.Countryus2跳转至Name.Language.CodeName.Language.Codeen1跳转至Name.Language.Coun
您可能关注的文档
- 司法鉴定汽车道路交通事故碰撞速度计算、技术分析安全.ppt
- 学习雷锋精神——大学生主题班会课件.ppt
- 中国法制史(第4讲).ppt
- 云南XX国际珠宝城项目定位与营销策略报告.ppt
- 旅游房地产项目策划案例范本.ppt
- 有限元课件5-单元分析总结与例题.ppt
- 南京幻灯片思修作业.ppt
- 《病毒感染与免疫》课件.ppt
- 生活中的地理常识.ppt
- 赢商共享逆市营销破局赤峰保卫战案例.ppt
- 2025年新人教版英语七年级上册全册课件 Starter Unit 1 第一课时 Section A 1a-2d.pptx
- 2025年新人教版英语三年级上册 U1 B Start to read& C Project 教学课件.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 5 第一课时 Section A 1a-pronunciation.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 2 第三课时 Section A Grammar Focus.pptx
- 2025年新人教版英语三年级上册 U6 A talk 教学课件.pptx
- 2025年新人教版英语三年级上册 U5 A learn 教学课件.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 2 第一课时 Section A 1a- pronunciation.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 4 第五课时 Section B 2a-2b.pptx
- 2025年新人教版英语三年级上册 U6 B learn 教学课件.ppt
- 2025年新人教版英语三年级上册 Unit 2 Different familiesPart C 第8课时 Reading time 教学课件.pptx
文档评论(0)