Hadoop配置与管理 Hadoop配置与管理 MapReduce-ch.03.pptVIP

Hadoop配置与管理 Hadoop配置与管理 MapReduce-ch.03.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Google GFS的基本构架和工作原理 数据访问工作过程 特点:应用程序访问具体数据时部需要经过GFS Master,因此,避免了Master成为访问瓶颈 并发访问:由于一个大数据会存储在不同的ChunkServer中,应用程序可实现并发访问 Google GFS的基本构架和工作原理 GFS的系统管理技术 大规模集群安装技术:如何在一个成千上万个节点的集群上迅速部署GFS,升级管理和维护等 故障检测技术:GFS是构建在不可靠的廉价计算机之上的文件系统,节点数多,故障频繁,如何快速检测、定位、恢复或隔离故障节点 节点动态加入技术:当新的节点加入时,需要能自动安装和部署GFS 节能技术:服务器的耗电成本大于购买成本,Google为每个节点服务器配置了蓄电池替代UPS,大大节省了能耗。 BigTable的基本作用和设计思想 GFS是一个文件系统,难以提供对结构化数据的存储和访问管理。为此,Google在GFS之上又设计了一个结构化数据存储和访问管理系统—BigTable,为应用程序提供比单纯的文件系统更方便、更高层的数据操作能力 Google的很多数据,包括Web索引、卫星图像数据、地图数据等都以结构化形式存放在BigTable中 BigTable提供了一定粒度的结构化数据操作能力,主要解决一些大型媒体数据(Web文档、图片等)的结构化存储问题。但与传统的关系数据库相比,其结构化粒度没有那么高,也没有事务处理等能力,因此,它并不是真正意义上的数据库。 BigTable设计动机和目标 主要动机 需要存储多种数据 Google提供的服务很多,序处理的数据类型也很多,如URL,网页,图片,地图数据,email,用户的个性化设置等 海量的服务请求 Google是目前世界上最繁忙的系统,因此,需要有高性能的请求和数据处理能力 商用数据库无法适用 在如此庞大的分布集群上难以有效部署商用数据库系统,且其难以承受如此巨量的数据存储和操作需求 BigTable设计动机和目标 主要设计目标 广泛的适用性:为一系列服务和应用而设计的数据存储系统,可满足对不同类型数据的存储和操作需求 很强的可扩展性:根据需要可随时自动加入或撤销服务器节点 高吞吐量数据访问:提供P级数据存储能力,每秒数百万次的访问请求 高可用性和容错性:保证系统在各种情况下度能正常运转,服务不中断 自动管理能力:自动加入和撤销服务器,自动负载平衡 简单性:系统设计尽量简单以减少复杂性和出错率 BigTable数据模型 BigTable主要是一个分布式多维表,表中的数据通过: 一个行关键字(row key) 一个列关键字(column key) 一个时间戳(time stamp) 进行索引和查询定位的。 BigTable对存储在表中的数据不做任何解释,一律视为字符串,具体数据结构的实现有用户自行定义。 BigTable查询模型 (row:string, column:string,time:int64)? 结果数据字符串 支持查询、插入和删除操作 BigTable数据模型 BigTable数据存储格式 行(Row):大小不超过64KB的任意字符串。表中的数据都是根据行关键字进行排序的。 n.www就是一个行关键字,指明一行存储数据。URL地址倒排好处是:1)同一地址的网页将被存储在表中连续的位置,便于查找;2)倒排便于数据压缩,可大幅提高数据压缩率 子表(Tablet):一个大表可能太大,不利于存储管理,将在水平方向上被分为多个子表 BigTable数据模型 BigTable数据存储格式 列(Column): BigTable将列关键字组织成为“列族”(column family),每个族中的数据属于同一类别,如anchor时一个列族,其下可有不同的表示一个个超链的列关键字。一个列族下的数据会被压缩在一起存放。因此,一个列关键字可表示为: 族名:列名(family:qualifier) content、anchor都是族名;而和my.look.ca则是anchor族中的列名。 BigTable数据模型 BigTable数据存储格式 时间戳(time stamp): 很多时候同一个URL的网页会不断更新,而Google需要保存不同时间的网页数据,因此需要使用时间戳来加以区分。 为了简化不同版本的数据管理,BigTable提供给了两种设置: 保留最近的n个版本数据 保留限定时间内的所有不同版本数据 BigTable基本构架 BigTable 主服务器 BigTable客户端 BigTable客户端程序库 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 …… 执行元

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档