网站大量收购独家精品文档,联系QQ:2885784924

google Bigtable数据存储系统性能分析.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
/ google Bigtable 数据存储系统性能分析 2010 年09 月06 日 1 / 1、Bigtable 概述: Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分 布在数千台普通服务器上的PB 级的数据。Google 的很多项目使用Bigtable 存储数据,包括 Web 索引、Google Earth 、Google Finance 。这些应用对Bigtable 提出的要求差异非常大,无 论是在数据量上(从URL 到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时 数据服务)。尽管应用需求差异很大,但是,针对 Google 的这些产品,Bigtable 还是成功的 提供了一个灵活的、高性能的解决方案。本论文描述了Bigtable 提供的简单的数据模型,利 用这个模型,用户可以动态的控制数据的分布和格式;我们还将描述Bigtable 的设计和实现。 本文采用举例论证的方法对Bigtable 的数据模型进行概述,利用图表分析等 多种方法对Bigtable 的基础构件与实现过程进行分析研究。用总体归纳的方法对 Bigtable 的性能进行分析,总结概括了Bigtable 的优点并提出相关问题后解决其问 题。 2 BigTable 数据模型概述 Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序Map 。Map 的 索引是行关键字、列关键字以及时间戳;Map 中的每个value 都是一个未经解析 的byte 数组。其语法表示为: (row:string, column:string,time:int64)-string 这个数据模型适用于Bigtable 系统的各种潜在用途。例如,假设需要存储海 量的网页及相关信息,这些用于很多不同的项目的数据,保存为一个特殊的表叫 做Webtable 。在Webtable 里,使用URL 作为行关键字,使用网页的某些属性作 为列名,网页的内容存在“contents :”列中,并用获取该网页的时间戳作为标识, (如图2—1[5] )。 2 / “contents:” “anchhor:” “anchhor:my.look.ca” “html” t3 “n.www” “html” “CNN” t9 “CNN.com” t8 t5 “html” t6 图2—1:一个存储Web 网页的例子的表的片断 其中行名是一个反向URL 。contents 列族存放的是网页的内容,anchor 列族存放 引用该网页的锚链接文本。CNN 的主页被Sports Illustrater 和MY-look 的主页引 用,因此该行包含了名为 “anchor: ”和 “anchhor:my.look.ca ” 的列。 每个锚链接只有一个版本。而contents 列则有三个版本,分别由时间戳t3 ,t5 , 和t6 标识。 2.1、行 表中的行关键字可以是任意的字符串。对同一个行关键字的读或者写操作都 是原子的(不管读或者写这一行里多少个不同列),这个设计决策能够使用户很 容易的理解程序在对同一个行进行并发更新操作时的行为。 Bigtable 通过行关键字的字典顺序来组织数据。表中的每个行都可以动态分 区。每个分区叫做一个“Tablet ”,Tablet 是数据分布和负载均衡调整的最小单位。 这样做的结果是,当操作只读取行中很少几列的数据时效率很高,通常只需要很 少几次机器

文档评论(0)

sunache + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档