- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Google GFS的基本构架和工作原理 数据访问工作过程 特点:应用程序访问具体数据时部需要经过GFS Master,因此,避免了Master成为访问瓶颈 并发访问:由于一个大数据会存储在不同的ChunkServer中,应用程序可实现并发访问 Google GFS的基本构架和工作原理 GFS的系统管理技术 大规模集群安装技术:如何在一个成千上万个节点的集群上迅速部署GFS,升级管理和维护等 故障检测技术:GFS是构建在不可靠的廉价计算机之上的文件系统,节点数多,故障频繁,如何快速检测、定位、恢复或隔离故障节点 节点动态加入技术:当新的节点加入时,需要能自动安装和部署GFS 节能技术:服务器的耗电成本大于购买成本,Google为每个节点服务器配置了蓄电池替代UPS,大大节省了能耗。 BigTable的基本作用和设计思想 GFS是一个文件系统,难以提供对结构化数据的存储和访问管理。为此,Google在GFS之上又设计了一个结构化数据存储和访问管理系统—BigTable,为应用程序提供比单纯的文件系统更方便、更高层的数据操作能力 Google的很多数据,包括Web索引、卫星图像数据、地图数据等都以结构化形式存放在BigTable中 BigTable提供了一定粒度的结构化数据操作能力,主要解决一些大型媒体数据(Web文档、图片等)的结构化存储问题。但与传统的关系数据库相比,其结构化粒度没有那么高,也没有事务处理等能力,因此,它并不是真正意义上的数据库。 BigTable设计动机和目标 主要动机 需要存储多种数据 Google提供的服务很多,序处理的数据类型也很多,如URL,网页,图片,地图数据,email,用户的个性化设置等 海量的服务请求 Google是目前世界上最繁忙的系统,因此,需要有高性能的请求和数据处理能力 商用数据库无法适用 在如此庞大的分布集群上难以有效部署商用数据库系统,且其难以承受如此巨量的数据存储和操作需求 BigTable设计动机和目标 主要设计目标 广泛的适用性:为一系列服务和应用而设计的数据存储系统,可满足对不同类型数据的存储和操作需求 很强的可扩展性:根据需要可随时自动加入或撤销服务器节点 高吞吐量数据访问:提供P级数据存储能力,每秒数百万次的访问请求 高可用性和容错性:保证系统在各种情况下度能正常运转,服务不中断 自动管理能力:自动加入和撤销服务器,自动负载平衡 简单性:系统设计尽量简单以减少复杂性和出错率 BigTable数据模型 BigTable主要是一个分布式多维表,表中的数据通过: 一个行关键字(row key) 一个列关键字(column key) 一个时间戳(time stamp) 进行索引和查询定位的。 BigTable对存储在表中的数据不做任何解释,一律视为字符串,具体数据结构的实现有用户自行定义。 BigTable查询模型 (row:string, column:string,time:int64)? 结果数据字符串 支持查询、插入和删除操作 BigTable数据模型 BigTable数据存储格式 行(Row):大小不超过64KB的任意字符串。表中的数据都是根据行关键字进行排序的。 n.www就是一个行关键字,指明一行存储数据。URL地址倒排好处是:1)同一地址的网页将被存储在表中连续的位置,便于查找;2)倒排便于数据压缩,可大幅提高数据压缩率 子表(Tablet):一个大表可能太大,不利于存储管理,将在水平方向上被分为多个子表 BigTable数据模型 BigTable数据存储格式 列(Column): BigTable将列关键字组织成为“列族”(column family),每个族中的数据属于同一类别,如anchor时一个列族,其下可有不同的表示一个个超链的列关键字。一个列族下的数据会被压缩在一起存放。因此,一个列关键字可表示为: 族名:列名(family:qualifier) content、anchor都是族名;而和my.look.ca则是anchor族中的列名。 BigTable数据模型 BigTable数据存储格式 时间戳(time stamp): 很多时候同一个URL的网页会不断更新,而Google需要保存不同时间的网页数据,因此需要使用时间戳来加以区分。 为了简化不同版本的数据管理,BigTable提供给了两种设置: 保留最近的n个版本数据 保留限定时间内的所有不同版本数据 BigTable基本构架 BigTable 主服务器 BigTable客户端 BigTable客户端程序库 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 …… 执行元
您可能关注的文档
- Android开发技术 学生移动APP作品产品演示文档 移动互联1601-潘超-201604101017-基于Android开发“皮皮段子”搞笑段子APP.pptx
- Autocad invert培训 inverter培训零件3.ppt
- Autocad 命令的执行 命令的执行.ppt
- Autocad 文件基本操作 文件的基本操作.ppt
- Autocad 阵列命令 阵列命令.ppt
- BIM计量与计价 剪力墙定义及绘制 墙建模与算量.pptx
- BIM建模应用技术 BIM建模应用技术 1.2.1 Autodesk Revit 如何新建文件.pptx
- BIM数字化设计与创新 坡道 KC023A014坡道.ppt
- BIM应用基础与设计实践 日光研究 18 03照明研究方式.ppt
- bz03-数字艺术概论 数字艺术的发展趋势 数字艺术的发展趋势.ppt
- HTML5+CSS开发 CSS3多列布局 CH7-1 CSS3多列布局.ppt
- HTML5+CSS开发 CSS简介 CH3-3 CSS3简介.ppt
- H供配电技术 电力负荷与负荷计算 3-负荷与负荷计算.ppt
- ICT营销技能 ICT营销技能 谈判概述.pptx
- Introduction of High-speed rail(高速铁路概论) Unit 6 Railway Shunting 6-4.pptx
- JAVA认证课程 线程同步编程 多线程.ppt
- JewelCAD 任务4 车花耳钉的制作 03任务4 车花耳钉的制作.ppt
- K101 分析化学 W1301滴定分析概述 KJ05第二章_滴定分析法概述.ppt
- K207 农产品质量安全检测技术 W2203 原子荧光光度法(AFS) KJ02 原子荧光光度仪原理结构及操作.ppt
- K216 食品质量管理与认证、K215 农产品质量管理与认证 W4401农产品、食品质量安全追溯系统的运行与管理、W4401农产品、食品质量安全追溯系统的运行与管理 KJ01 农垦可追溯体系.pptx
最近下载
- invoee英沃 VC610系列数控机床专用变频器使用说明书.pdf VIP
- 图形化一级全真模拟题.docx VIP
- 政教处主任职责及学生心理健康工作.docx VIP
- 全国青少年软件编程(python)等级考试模拟卷7(一级).docx VIP
- 5.2 珍惜师生情谊 课件-2024-2025学年统编版道德与法治七年级上册.pptx VIP
- 实用教程一级U4过去将来时.docx VIP
- 广东省家庭医生式签约服务团队.doc VIP
- 青少年软件编程(Python)等级考试试卷(一级).39.docx VIP
- WIN7操作系统练习题题库版.docx VIP
- 初中解一元二次方程计算练习.docx VIP
文档评论(0)