Google云计算应用场景分析..ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Google云计算应用场景分析.

应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 数据抽取 寻找包含学术(论文)信息的网页数据,并结构化存储 学术(论文)信息抽取(分析参考文献、摘要等) 可能的技术方案:MapReduce+BigTable 数据统计 基于抽取的数据进行统计分析(如分析被引用次数等) 可能的技术方案MapReduce+BigTable 学术信息BigTable 行键:论文标题 列键:作者、主题词、摘要、参考文献、期刊信息、被引用次数、下载链接…… 应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 如何使用MapReduce抽取数据? 生成抽取目标(URL)文件 将目标文件分割为M块 寻找M个Worker分别做Map处理 查询网站的网页数据 是否包含论文描述信息 抽取论文描述信息,输出 按论文标题将输出排序 将论文描述信息存入BigTable 寻找若干Worker做Reduce处理 Map Reduce 自动处理 自动处理 应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 分析论文信息表,二次MapReduce 论文A, 参考文献: {论文B, 论文C, 论文D} 论文B, 参考文献: {论文Q, 论文C, 论文A} 论文C, 参考文献: {论文D, 论文H, 论文A} 论文F, 参考文献: {论文A, 论文C} 论文E, 参考文献: {论文S, 论文A, 论文D} 论文S, 参考文献: {论文E, 论文F} 论文B, 1 论文C, 1 论文D, 1 论文Q, 1 论文C, 1 论文A, 1 论文D, 1 论文H, 1 论文A, 1 论文A, 1 论文C, 1 论文S, 1 论文A, 1 论文D, 1 论文E, 1 论文F, 1 应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 归纳排序 论文B, 1 论文C, 1 论文D, 1 论文Q, 1 论文C, 1 论文A, 1 论文D, 1 论文H, 1 论文A, 1 论文A, 1 论文C, 1 论文S, 1 论文A, 1 论文D, 1 论文E, 1 论文F, 1 论文A, 1论文A, 1论文A, 1论文A, 1 论文B, 1 论文C, 1论文C, 1论文C, 1 论文D, 1论文D, 1论文D, 1 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) Reduce操作 论文A, 1论文A, 1论文A, 1论文A, 1 论文B, 1 论文C, 1论文C, 1论文C, 1 论文D, 1论文D, 1论文D, 1 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 论文A, 4 论文B, 1 论文C, 3 论文D, 3 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 应用场景分析2 ——Google搜索 数据检索 有可能采用MapReduce实现 关键词搜索可能的处理流程 子表是否有Content列 是否包含关键词 关键词语义分析 任务划分(子表+新关键词) 输出到临时结果表 获取行数据中Content项 处理完成 分配Worker 结果输出 Map Reduce 应用场景分析2 ——Google搜索 数据检索 搜索结果可能通过临时表存储 每个关键词对应一个临时子表 检索系统根据输入枚举现存检索结果的相似关键词 如果临时子表中存在检索结果,直接输出 应该存在机制刷新临时子表 * Google云计算应用场景分析 主要内容 Google云计算技术框架 应用场景分析1:Google网站流量分析 应用场景分析2:Google搜索 Google云计算的技术架构 Google的云计算应用均依赖于四个基础组件 分布式文件存储,GFS 并行数据处理模型MapReduce 分布式锁Chubby 结构化数据表BigTable Google云计算应用 MapReduce BigTable GFS Chubby Google云计算的技术架构 Google云计算应用 BigTable GFS MapReduce Chubby 组件调用关系分析 Google云计算的技术架构 Chubby的作用 为GFS提供锁服务,选择Master节点;记录Master的相关描述信息 通过独占锁记录Chunk Server的活跃情况 为BigTable提供锁服务,记录子表元信息(如子表文件信息、子表分配信息、子表服务器信

文档评论(0)

叮当文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档