4google云计算原理3课件.ppt

下载文档 降价啦

5
0
约4.83千字
约 54页
2016-04-30 发布于山西
举报
版权申诉
保障服务

4google云计算原理3课件.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

4google云计算原理3课件

行每行数据有一个可排序的关键字和任意列项字符串、整数、二进制串甚至可串行化的结构都可以作为行键表按照行键的“逐字节排序”顺序对行进行有序化处理表内数据非常‘稀疏’，不同的行的列的数完全目可以大不相同 URL是较为常见的行键，存储时需要倒排统一地址域的网页连续存储，便于查找、分析和压缩 /index.asp→com.baidu.mp3/index.asp * 列特定含义的数据的集合，如图片、链接等可将多个列归并为一组，称为族（family）采用族:限定词的语法规则进行定义 fileattr:owning_group”, “fileattr:owning_user”, etc 同一个族的数据被压缩在一起保存族是必须的，是BigTable中访问控制的基本单元 * 时间戳保存不同时期的数据，如“网页快照” “A big table” 表中的列可以不受限制地增长表中的数据几乎可以无限地增加通过(row, col, timestamp)查询通过(row, col, MOST_RECENT)查询 * 无数据校验每行都可存储任意数目的列 BigTable不对列的最少数目进行约束任意类型的数据均可存储 BigTable将所有数据均看作为字符串数据的有效性校验由构建于其上的应用系统完成一致性针对同一行的多个操作可以分组合并不支持对多行进行修改的操作符 * Row Key Time Stamp Column: Contents Cn.www T6 “html..” T5 “html..” T3 “html..” Row Key Time Stamp Column: Anchor Cn.www T9 Anchor: CNN T5 Anchor:my.look.ca CNN.COM Row Key Time Stamp Column: mime Cn.www T6 text/html Row Key Time Stamp Column Contents Column Anchor Column “mime” my.look.ca “n.www” T9 CNN T8 CNN.COM T6 “html.. “ Text/html T5 “html.. “ t3 “html.. “ * 逻辑上的“表”被划分为若干子表（Tablet）每个Tablet由多个SSTable文件组成 SSTable文件存储在GFS之上每个子表存储了table的一部分行元数据：起始行键、终止行键如果子表体积超过了阈值（如200M），则进行分割 * * 为每个子表服务器分配子表，对外提供服务与GFS垃圾回收进行交互，收回废弃的SSTable 探测子表服务器的故障与恢复负载均衡有效缓解单点故障 * * * * * 任何对子表的写操作都会记录到一个存储在GFS之上的commit log中每个子表服务器上所有子表变化对应于一个commit log 新的数据存储到子表服务器的内存（memtable）中次压缩旧数据存储在SSTable中，而新数据存放在memtable中当memtable体积超过一定阈值，将形成SSTable，并写入GFS 每个tablet对应多个SSTable * tablet含有多个SSTable导致查询效率低合并压缩操作读取多个SSTable，创建一个新的SSTable来保持其中的最新数据旧的SSTable删除如果合并压缩操作完成后，tablet只包含一个SSTable，那么该操作也称为主压缩 * * 新的故障子表服务器内存中的memtable丢失恢复方法按照tablet将该服务器对应的日志分片为每个失效tablet分配新的子表服务器新子表服务器读取对应的分段commit log，并按照日志修改tablet 删除commit log中已实施的内容重新对外提供服务 * 局部性群组(Locality Group) 根据需要，将原本不存储在一起的数据，以列族为单位存储至单独的子表如用户对网站排名、语言等分析信息感兴趣，那么可以将这些列族放至单独的子表，减少无用信息读取，改善存取效率布隆过滤器(Bloom Filter) 什么是布隆过滤器？判断某个元素是否隶属于集合优点：误判概率低，其存储空间仅为Hash表的1/8至1/4 用于判断列键是否位于SSTable中，快速确定某个列键的位置 * * Google云计算架构中GFS、MapReduce和BigTable中是否存在集群节点复用的情况？如何复用？节点复用的好处有哪些？ Google云计算架构的设计对你有哪些启发？有哪些收获？ Google App Engine * Google App Engin