- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Google云计算应用场景分析-中国云计算
应用场景分析2——Google搜索 数据整理(Google学术搜索) 数据抽取 寻找包含学术(论文)信息的网页数据,并结构化存储 学术(论文)信息抽取(分析参考文献、摘要等) 可能的技术方案:MapReduce+BigTable 数据统计 基于抽取的数据进行统计分析(如分析被引用次数等) 可能的技术方案MapReduce+BigTable 学术信息BigTable 行键:论文标题 列键:作者、主题词、摘要、参考文献、期刊信息、被引用次数、下载链接…… 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何使用MapReduce抽取数据? 生成抽取目标(URL)文件 将目标文件分割为M块 寻找M个Worker分别做Map处理 查询网站的网页数据 是否包含论文描述信息 抽取论文描述信息,输出 按论文标题将输出排序 将论文描述信息存入BigTable 寻找若干Worker做Reduce处理 Map Reduce 自动处理 自动处理 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 分析论文信息表,二次MapReduce 论文A, 参考文献: {论文B, 论文C, 论文D} 论文B, 参考文献: {论文Q, 论文C, 论文A} 论文C, 参考文献: {论文D, 论文H, 论文A} 论文F, 参考文献: {论文A, 论文C} 论文E, 参考文献: {论文S, 论文A, 论文D} 论文S, 参考文献: {论文E, 论文F} 论文B, 1 论文C, 1 论文D, 1 论文Q, 1 论文C, 1 论文A, 1 论文D, 1 论文H, 1 论文A, 1 论文A, 1 论文C, 1 论文S, 1 论文A, 1 论文D, 1 论文E, 1 论文F, 1 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 归纳排序 论文B, 1 论文C, 1 论文D, 1 论文Q, 1 论文C, 1 论文A, 1 论文D, 1 论文H, 1 论文A, 1 论文A, 1 论文C, 1 论文S, 1 论文A, 1 论文D, 1 论文E, 1 论文F, 1 论文A, 1论文A, 1论文A, 1论文A, 1 论文B, 1 论文C, 1论文C, 1论文C, 1 论文D, 1论文D, 1论文D, 1 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) Reduce操作 论文A, 1论文A, 1论文A, 1论文A, 1 论文B, 1 论文C, 1论文C, 1论文C, 1 论文D, 1论文D, 1论文D, 1 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 论文A, 4 论文B, 1 论文C, 3 论文D, 3 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 应用场景分析2——Google搜索 数据检索 有可能采用MapReduce实现 关键词搜索可能的处理流程 子表是否有Content列 是否包含关键词 关键词语义分析 任务划分(子表+新关键词) 输出到临时结果表 获取行数据中Content项 处理完成 分配Worker 结果输出 Map Reduce 应用场景分析2——Google搜索 数据检索 搜索结果可能通过临时表存储 每个关键词对应一个临时子表 检索系统根据输入枚举现存检索结果的相似关键词 如果临时子表中存在检索结果,直接输出 应该存在机制刷新临时子表 欢迎访问 中国云计算网站 欢迎使用 《云计算》教材 电子工业出版社 刘鹏 主编 本讲到此结束 * Google云计算应用场景分析 电子工业出版社 刘鹏主编《云计算》教材配套课件5 主要内容 Google云计算技术框架 应用场景分析1:Google网站流量分析 应用场景分析2:Google搜索 Google云计算的技术架构 Google的云计算应用均依赖于四个基础组件 分布式文件存储,GFS 并行数据处理模型MapReduce 分布式锁Chubby 结构化数据表BigTable Google云计算应用 MapReduce BigTable GFS Chubby Google云计算的技术架构 Google云计算应用 BigTable GFS MapReduce Chubby 组件调用关系分析 Google云计算的技术架构 Chubby的作用 为GFS提供锁服务,选择Master节点;记录Master
您可能关注的文档
- BasicOperationandAnalysisofAunanoparticles指导教授王圣璋.doc
- C122计算机概论.ppt
- CCD与CMOS的光电转换示意图.ppt
- cdma技术-与非网.ppt
- Ch04AOPA.DOC.doc
- Ch02控制结构(New).ppt
- B06未来能源与节能科技实验室(一).ppt
- Ch10RBJTAmp.doc
- CH2160w无线双水位接收显示器手册v4.doc
- CERNET2宁波节点.ppt
- 2025年重庆电讯职业学院单招职业技能测试近5年真题考点含答案解析.docx
- 2025年青岛飞洋职业技术学院单招语文2019-2024历年真题考点试卷含答案解析.docx
- 2024年04月上半年四川自贡市大安区事业单位考试聘用人员53人(含医疗岗)笔试历年专业考点(难、易错点荟萃)附带答案详解 .docx
- 2024年01月江苏宜兴市卫生监督所招聘驾驶员3人笔试历年专业考点(难、易错点荟萃)附带答案详解 .docx
- 2024年01月江苏连云港市东海县卫生健康委员会所属事业单位第三次招聘编制内卫生专业技术人员笔试笔试历年专业考点(难、易错点荟萃)附带答案详解 .docx
- 2024年01月海南乐东黎族自治县卫生健康委员会对乐东黎族自治县招聘卫健系统专业技术人员(第一批)拟聘用人员进行笔试历年专业考点(难、易错点荟萃)附带答案详解 .docx
- 2024年02月浙江台州市椒江区章安街道社区卫生服务中心招聘编外人员3人笔试历年专业考点(难、易错点荟萃)附带答案详解 .docx
- 2025年白城职业技术学院单招(数学)历年真题考点含答案解析.docx
- 2025年莱芜职业技术学院单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析.docx
- 2025年重庆航天职业技术学院单招英语2014-2024历年真题考点试卷摘选含答案解析.docx
文档评论(0)