Google数据存储技术分析.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Google数据存储技术分析

* * MapReduce示意图 MapReduce系统结构 Single Master node Many worker bees Many worker bees MapReduce操作 Initial data split into 64MB blocks Computed, results locally stored Master informed of result locations M sends data location to R workers Final output written MapReduce容错性 Worker出错 Master通过心跳检测出错情况 如果是map操作则重新执行 如果是未完成的reduce操作则重新执行 Master出错 一般不会发生 可以有解决方法 MapReduce容错性 worker速度不一致 较慢的worker会导致整体计算时间变长 解决方案 Master监控执行情况 如果有特别慢的worker,则启动另一个worker做相同计算 以先算完的为准 MapReduce系统性能 从1010 条100字节的记录中grep特定正则表达式,用时150s,匹配92k条记录 排序1010 条100字节的记录,用时839s MapReduce优点 使用简单,注意力集中在数据处理上,多机的通讯等问题由架构提供 本地计算,到数据所在地进行计算,减少了数据传输 高度简化了大规模并行处理 与GoogleFS很好的集成 BigTable 背景 海量数据的存储和访问 GoogleFS只解决了部分问题 大量的随机访问 通用的dbms不能满足需要 数据的特殊性 数据量超出dbms的管理能力 性能要求(难以优化) 价格 BigTable简介 分布式多维map 容错的持久存储 可扩展 自管理 服务器动态增加/减少 根据负载自动调整 MapReduce构件 GoogleFS:持久存储数据 Google WorkQueue:调度器,向各个server分配任务 Google chubby:分布式锁服务 MapReduce:数据处理 BigTable集群 Cluster Scheduling Master Lock Service GFS Master Machine 1 Scheduler Slave GFS Chunkserver Linux User Task Machine 2 Scheduler Slave GFS Chunkserver Linux User Task Machine 3 Scheduler Slave GFS Chunkserver Linux Single Task BigTable Server BigTable Server BigTable Master BigTable数据模型 (row, column, timestamp) ? 单元值 … … “html…” t1 t2 t3 Cn.www ROWS Column family TIMESTAMPS “contents” BigTable数据模型 行: 行的名字是变长字符串 对一行数据的操作是原子的 创建一行就会存储一行数据 行是按字典顺序排序的 将url反转过来作为行名,可以将同一个网站上的网页分散 Tablets 大的表可以以行为单位分隔成两个tablet 每个tablet保存连续的行 单个tablet数据量不大,100M~200M 每个机器上大约放100个tablet 可以快速恢复 可以实现细粒度的负载均衡 Tablets Splitting “html…” TABLETS “contents” EN /sports.html “language” W Z/menu.html … … Tablets Splitting “html…” TABLETS “contents” EN /sports.html “language” W Z/menu.html … Y/kids.html Y/kids.html?D … … Bigtable系统架构 Cluster Scheduling Master handles failover, monitoring GFS holds tablet data, logs Lock service holds metadata, handles master-election Bigtable tablet server serves data Bigtable tablet server serves data Bigtable tablet server serves data Bigtable master performs metadata ops, lo

文档评论(0)

allap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档