- 5
- 0
- 约4.83千字
- 约 54页
- 2017-09-03 发布于天津
- 举报
google云计算原理 - linuxtoneorg
行 每行数据有一个可排序的关键字和任意列项 字符串、整数、二进制串甚至可串行化的结构都可以作为行键 表按照行键的“逐字节排序”顺序对行进行有序化处理 表内数据非常‘稀疏’,不同的行的列的数完全目可以大不相同 URL是较为常见的行键,存储时需要倒排 统一地址域的网页连续存储,便于查找、分析和压缩 /index.asp→com.baidu.mp3/index.asp * 列 特定含义的数据的集合,如图片、链接等 可将多个列归并为一组,称为族(family) 采用 族:限定词 的语法规则进行定义 fileattr:owning_group”, “fileattr:owning_user”, etc 同一个族的数据被压缩在一起保存 族是必须的,是BigTable中访问控制的基本单元 * 时间戳 保存不同时期的数据,如“网页快照” “A big table” 表中的列可以不受限制地增长 表中的数据几乎可以无限地增加 通过(row, col, timestamp)查询 通过(row, col, MOST_RECENT)查询 * 无数据校验 每行都可存储任意数目的列 BigTable不对列的最少数目进行约束 任意类型的数据均可存储 BigTable将所有数据均看作为字符串 数据的有效性校验由构建于其上的应用系统完成 一致性 针对同一行的多个操作可以分组合并 不支持对多行进行修改的操作符 * Row Key Time Stamp Column: Contents Cn.www T6 “html..” T5 “html..” T3 “html..” Row Key Time Stamp Column: Anchor Cn.www T9 Anchor: CNN T5 Anchor:my.look.ca CNN.COM Row Key Time Stamp Column: mime Cn.www T6 text/html Row Key Time Stamp Column Contents Column Anchor Column “mime” my.look.ca “n.www” T9 CNN T8 CNN.COM T6 “html.. “ Text/html T5 “html.. “ t3 “html.. “ * 逻辑上的“表”被划分为若干子表(Tablet) 每个Tablet由多个SSTable文件组成 SSTable文件存储在GFS之上 每个子表存储了table的一部分行 元数据:起始行键、终止行键 如果子表体积超过了阈值(如200M),则进行分割 * * 为每个子表服务器分配子表,对外提供服务 与GFS垃圾回收进行交互,收回废弃的SSTable 探测子表服务器的故障与恢复 负载均衡 有效缓解单点故障 * * * * * 任何对子表的写操作都会记录到一个存储在GFS之上的commit log中 每个子表服务器上所有子表变化对应于一个commit log 新的数据存储到子表服务器的内存(memtable)中 次压缩 旧数据存储在SSTable中,而新数据存放在memtable中 当memtable体积超过一定阈值,将形成SSTable,并写入GFS 每个tablet对应多个SSTable * tablet含有多个SSTable导致查询效率低 合并压缩操作读取多个SSTable,创建一个新的SSTable来保持其中的最新数据 旧的SSTable删除 如果合并压缩操作完成后,tablet只包含一个SSTable,那么该操作也称为主压缩 * * 新的故障 子表服务器内存中的memtable丢失 恢复方法 按照tablet将该服务器对应的日志分片 为每个失效tablet分配新的子表服务器 新子表服务器读取对应的分段commit log,并按照日志修改tablet 删除commit log中已实施的内容 重新对外提供服务 * 局部性群组(Locality Group) 根据需要,将原本不存储在一起的数据,以列族为单位存储至单独的子表 如用户对网站排名、语言等分析信息感兴趣,那么可以将这些列族放至单独的子表,减少无用信息读取,改善存取效率 布隆过滤器(Bloom Filter) 什么是布隆过滤器?判断某个元素是否隶属于集合 优点:误判概率低,其存储空间仅为Hash表的1/8至1/4 用于判断列键是否位于SSTable中,快速确定某个列键的位置 * * Google云计算架构中GFS、MapReduce和BigTable中是否存在集群节点复用的情况? 如何复用? 节点复用的好处有哪些? Google云计算架构的设计对你有哪些启发?有哪些收获? Google App Engine * Google App Engin
您可能关注的文档
- 第七章 典型零件的结合及互换性.ppt
- 2015年全国课标ⅰ卷物理试题赏析 - 设为首页.ppt
- 全球变化》(第二版)章节目录(2007-03 - 中国气象局国家气候中心 .doc
- 全球基金项目非政府组织参与活动方案.doc
- chapter 4 ---质子交换膜燃料电池.ppt
- 全球化冲击下大学面对的挑战与机会 - 人文精神与美感生活鱼梯学习计画.ppt
- 全球化衝擊下大學面對的挑戰與機會 - 人文精神與美感生活魚梯學習計畫.ppt
- 全球服务专业实力 - nera economic consulting.pdf
- 全球气候暖化之探讨 - lms - 康宁大学.ppt
- 全球氣候暖化之探討 - lms - 康寧大學.ppt
最近下载
- 国之脊梁中国科学家的家国天下阅读分享PPT课件.pptx VIP
- 个人简历模板表格简历模板免费下载.docx VIP
- (2026春新版)部编版三年级道德与法治下册全册教案.doc
- 健康体适能评定理论与方法.pptx VIP
- JR DSX7 全中文说明书 和 Spektrum DX7 全中文说明书.docx VIP
- 2020年高级经济师(人力资源)考试真题及参考答案 .pdf VIP
- 社会体育指导专题9 (傅浩坚).ppt VIP
- 2026年山东司法警官职业学院单招综合素质考试模拟试题及答案解析.docx VIP
- 社会体育指导专题8(傅浩坚).pptx VIP
- 肝硬化门静脉高压症食管、胃底静脉曲张破裂出血诊治专家共识(2024版).pptx VIP
原创力文档

文档评论(0)