Hadoop配置与管理 Hadoop配置与管理 MapReduce-ch.03.pptVIP

下载本文档

2
0
约8.73千字
约 44页
2020-10-30 发布于北京
举报
版权申诉

Hadoop配置与管理 Hadoop配置与管理 MapReduce-ch.03.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Google GFS的基本构架和工作原理数据访问工作过程特点：应用程序访问具体数据时部需要经过GFS Master，因此，避免了Master成为访问瓶颈并发访问：由于一个大数据会存储在不同的ChunkServer中，应用程序可实现并发访问 Google GFS的基本构架和工作原理 GFS的系统管理技术大规模集群安装技术：如何在一个成千上万个节点的集群上迅速部署GFS，升级管理和维护等故障检测技术：GFS是构建在不可靠的廉价计算机之上的文件系统，节点数多，故障频繁，如何快速检测、定位、恢复或隔离故障节点节点动态加入技术：当新的节点加入时，需要能自动安装和部署GFS 节能技术：服务器的耗电成本大于购买成本，Google为每个节点服务器配置了蓄电池替代UPS，大大节省了能耗。 BigTable的基本作用和设计思想 GFS是一个文件系统，难以提供对结构化数据的存储和访问管理。为此，Google在GFS之上又设计了一个结构化数据存储和访问管理系统—BigTable，为应用程序提供比单纯的文件系统更方便、更高层的数据操作能力 Google的很多数据，包括Web索引、卫星图像数据、地图数据等都以结构化形式存放在BigTable中 BigTable提供了一定粒度的结构化数据操作能力，主要解决一些大型媒体数据（Web文档、图片等）的结构化存储问题。但与传统的关系数据库相比，其结构化粒度没有那么高，也没有事务处理等能力，因此，它并不是真正意义上的数据库。 BigTable设计动机和目标主要动机需要存储多种数据 Google提供的服务很多，序处理的数据类型也很多，如URL,网页,图片,地图数据,email,用户的个性化设置等海量的服务请求 Google是目前世界上最繁忙的系统，因此，需要有高性能的请求和数据处理能力商用数据库无法适用在如此庞大的分布集群上难以有效部署商用数据库系统，且其难以承受如此巨量的数据存储和操作需求 BigTable设计动机和目标主要设计目标广泛的适用性:为一系列服务和应用而设计的数据存储系统,可满足对不同类型数据的存储和操作需求很强的可扩展性:根据需要可随时自动加入或撤销服务器节点高吞吐量数据访问:提供P级数据存储能力，每秒数百万次的访问请求高可用性和容错性:保证系统在各种情况下度能正常运转，服务不中断自动管理能力：自动加入和撤销服务器，自动负载平衡简单性：系统设计尽量简单以减少复杂性和出错率 BigTable数据模型 BigTable主要是一个分布式多维表，表中的数据通过：一个行关键字(row key) 一个列关键字(column key) 一个时间戳(time stamp) 进行索引和查询定位的。 BigTable对存储在表中的数据不做任何解释，一律视为字符串，具体数据结构的实现有用户自行定义。 BigTable查询模型 (row:string, column:string,time:int64)? 结果数据字符串支持查询、插入和删除操作 BigTable数据模型 BigTable数据存储格式行(Row):大小不超过64KB的任意字符串。表中的数据都是根据行关键字进行排序的。 n.www就是一个行关键字，指明一行存储数据。URL地址倒排好处是：1)同一地址的网页将被存储在表中连续的位置,便于查找；2)倒排便于数据压缩,可大幅提高数据压缩率子表(Tablet)：一个大表可能太大，不利于存储管理，将在水平方向上被分为多个子表 BigTable数据模型 BigTable数据存储格式列(Column): BigTable将列关键字组织成为“列族”(column family),每个族中的数据属于同一类别,如anchor时一个列族，其下可有不同的表示一个个超链的列关键字。一个列族下的数据会被压缩在一起存放。因此,一个列关键字可表示为: 族名：列名(family:qualifier) content、anchor都是族名；而和my.look.ca则是anchor族中的列名。 BigTable数据模型 BigTable数据存储格式时间戳(time stamp): 很多时候同一个URL的网页会不断更新，而Google需要保存不同时间的网页数据，因此需要使用时间戳来加以区分。为了简化不同版本的数据管理，BigTable提供给了两种设置：保留最近的n个版本数据保留限定时间内的所有不同版本数据 BigTable基本构架 BigTable 主服务器 BigTable客户端 BigTable客户端程序库 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 …… 执行元