google Bigtable数据存储系统性能分析.pdf

下载文档 降价啦

5
0
约1.56万字
约 17页
2019-11-28 发布于辽宁
举报
版权申诉
保障服务

google Bigtable数据存储系统性能分析.pdf

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

/ google Bigtable 数据存储系统性能分析 2010 年09 月06 日 1 / 1、Bigtable 概述： Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB 级的数据。Google 的很多项目使用Bigtable 存储数据，包括 Web 索引、Google Earth 、Google Finance 。这些应用对Bigtable 提出的要求差异非常大，无论是在数据量上（从URL 到网页到卫星图像）还是在响应速度上（从后端的批量处理到实时数据服务）。尽管应用需求差异很大，但是，针对 Google 的这些产品，Bigtable 还是成功的提供了一个灵活的、高性能的解决方案。本论文描述了Bigtable 提供的简单的数据模型，利用这个模型，用户可以动态的控制数据的分布和格式；我们还将描述Bigtable 的设计和实现。本文采用举例论证的方法对Bigtable 的数据模型进行概述，利用图表分析等多种方法对Bigtable 的基础构件与实现过程进行分析研究。用总体归纳的方法对 Bigtable 的性能进行分析，总结概括了Bigtable 的优点并提出相关问题后解决其问题。 2 BigTable 数据模型概述 Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序Map 。Map 的索引是行关键字、列关键字以及时间戳；Map 中的每个value 都是一个未经解析的byte 数组。其语法表示为： (row:string, column:string,time:int64)-string 这个数据模型适用于Bigtable 系统的各种潜在用途。例如，假设需要存储海量的网页及相关信息，这些用于很多不同的项目的数据，保存为一个特殊的表叫做Webtable 。在Webtable 里，使用URL 作为行关键字，使用网页的某些属性作为列名，网页的内容存在“contents ：”列中，并用获取该网页的时间戳作为标识，（如图2—1[5] ）。 2 / “contents:” “anchhor:” “anchhor:my.look.ca” “html” t3 “n.www” “html” “CNN” t9 “CNN.com” t8 t5 “html” t6 图2—1：一个存储Web 网页的例子的表的片断其中行名是一个反向URL 。contents 列族存放的是网页的内容，anchor 列族存放引用该网页的锚链接文本。CNN 的主页被Sports Illustrater 和MY-look 的主页引用，因此该行包含了名为 “anchor: ”和 “anchhor:my.look.ca ” 的列。每个锚链接只有一个版本。而contents 列则有三个版本，分别由时间戳t3 ，t5 ，和t6 标识。 2.1、行表中的行关键字可以是任意的字符串。对同一个行关键字的读或者写操作都是原子的（不管读或者写这一行里多少个不同列），这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作时的行为。 Bigtable 通过行关键字的字典顺序来组织数据。表中的每个行都可以动态分区。每个分区叫做一个“Tablet ”，Tablet 是数据分布和负载均衡调整的最小单位。这样做的结果是，当操作只读取行中很少几列的数据时效率很高，通常只需要很少几次机器