- 1
- 0
- 约3.8千字
- 约 54页
- 2019-04-18 发布于江西
- 举报
课程回顾;;GFS的容错机制
Chunk Server容错
每个Chunk有多个存储副本(通常是3个),分别存储于不通的服务器上
每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验码,保证数据正确(若某个Block错误,则转移至其他Chunk副本)
Master容错(影子节点热备)
三类元数据:命名空间(目录结构)、Chunk与文件名的映射以及Chunk副本的位置信息
前两类通过日志提供容错,Chunk副本信息存储于Chunk Server,Master出现故障时可恢复
;;MapReduce处理流程中各类文件的存储位置在哪里?
MapReduce的容错方法?
MapReduce的处理优化方法?
MapReduce仅能对GFS之上的文件进行处理吗?;所有步骤均可控,可灵活处理各类分布式问题;除了排序,新增两道题目
使用MapReduce实现倒排索引
输入:100个文本文档
输出:倒排索引
任务
实现算法,给出数据结构描述、执行过程描述等
作业??求同“排序”
要求尽可能提高执行效率,节约网络IO带宽;除了排序,新增两道题目
使用MapReduce实现快速查询
查询目标是存储在BigTable之中的网页数据,给定关键字,快速查询含有该内容的网页(假定没有倒排索引)
要求
设计BigTable存储方式(表含有哪些列、无需关心数据如何取得)
设计快速查询的MapReduce处理方法
作业要求同“排序”;分布式锁服务Chubby;主要用于解决分布式一致性问题
在一个分布式系统中,有一组的Process,它们需要确定一个Value。于是每个Process都提出了一个Value,一致性就是指只有其中的一个Value能够被选中作为最后确定的值,并且当这个值被选出来以后,所有的Process都需要被通知到
粗粒度的分布式锁服务
Chubby是Google为解决分布式一致性问题而设计的提供粗粒度锁服务的文件系统
其他分布式系统可以使用它对共享资源的访问进行同步
;需要实现的特性
高可用性
高可靠性
支持粗粒度的建议性锁服务
支持小规模文件直接存储
不作考虑的特性
高性能
存储能力;;;Chubby系统本质上就是一个分布式的、存储大量小文件的文件系统
Chubby中的锁就是文件
在GFS的例子中,创建文件就是进行“加锁”操作,创建文件成功的那个server其实就是抢占到了“锁”
用户通过打开、关闭和存取文件,获取共享锁或者独占锁;并且通过通信机制,向用户发送更新信息
;;主节点选举
独占锁
共享锁
数据存取应用
获取GFS ChunkServer信息
元数据存储
……;分布式数据表BigTable;为什么需要设计BigTable?
Google需要存储的数据种类繁多
网页,地图数据,邮件……
如何使用统一的方式存储各类数据?
海量的服务请求
如何快速地从海量信息中寻找需要的数据?
BigTable:基于GFS和Chubby的分布式存储系统
对数据进行结构化存储和管理
与GFS的联系
;数据存储可靠性
高速数据检索与读取
存储海量的记录(若干TB)
可以保存记录的多个版本;与写操作相比,数据记录读操作占绝大多数工作负载
单个节点故障损坏是常见的
磁盘是廉价的
可以不提供标准接口
Google既能控制数据库设计,又能进行应用系统设计;具有广泛的适应性
支持Google系列产品的存储需求
具有很强的可扩展性
根据需要随时加入或撤销服务器
应对不断增多的访问请求
高可用性
单个节点易损,但要确保几乎所有的情况下系统都可用
简单性
简单的底层系统可减少系统出错概率,为上层开发带来便利
;总体上,与关系数据库中的表类似;行
每行数据有一个可排序的关键字和任意列项
字符串、整数、二进制串甚至可串行化的结构都可以作为行键
表按照行键的“逐字节排序”顺序对行进行有序化处理
表内数据非常‘稀疏’,不同的行的列的数完全目可以大不相同
URL是较为常见的行键,存储时需要倒排
统一地址域的网页连续存储,便于查找、分析和压缩
;列
特定含义的数据的集合,如图片、链接等
可将多个列归并为一组,称为族(family)
采用 族:限定词 的语法规则进行定义
fileattr:owning_group”, “fileattr:owning_user”, etc
同一个族的数据被压缩在一起保存
族是必须的,是BigTable中访问控制的基本单元
;时间戳
保存不同时期的数据,如“网页快照”
“A big table”
表中的列可以不受限制地增长
表中的数据几乎可以无限地增加
;无数据校验
每行都可存储任意数目的列
BigTable不对列的最少数目进行约束
任意类型的数据均可存储
BigTable将所有数据均看作为字符串
数据的有效性校验由构
您可能关注的文档
- 《通知》应用文写作课件.ppt
- 《砼结构与砌体结构设计》演示稿-第1章 绪论.ppt
- 《统计基础》课程标准.doc
- 《土木工程力学基础(多学时 )》课 件 1.ppt
- 《土木工程施工》第11次课(第四章 钢筋混凝土工程).ppt
- 《团队建设_创业团队的组建与管理》.ppt
- 《外国文学史》备考资料.doc
- 《外科护理学》课件教案10外科感染病人的护理.ppt
- 《外贸单证实务》整体课程设计介绍.doc
- 《外贸跟单实务》课程教学大纲.doc
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- 智盛国际结算教学实训平台软件操作手册V3.0.pdf
- 2026年江西工业工程职业技术学院单招职业适应性测试题库含答案详解.docx VIP
- OpenClaw自我研究报告1.0.pdf VIP
- 05S804矩形钢筋混凝土蓄水池(建筑结构图集).pdf
- 中成药用药指导原则.pdf
- 医学课件-2025心肺复苏指南最新标准.pptx VIP
- 热电集中供压缩空气项目可行性研究报告写作模板-申批立项.doc
- 矿山开采中SimbaH1354(中深孔)台车故障诊断及规避.pdf VIP
- 吉林省长春市2026届高三年级质量检测化学(一)(长春一模)(含答案).pdf
- 2026年辅警招聘笔试考试题库及答案.docx VIP
原创力文档

文档评论(0)