- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Google云计算应用BigTableGFSMapReduceChubby-SJTUCS.ppt
应用场景分析2——Google搜索 数据整理(Google学术搜索) 数据抽取 寻找包含学术(论文)信息的网页数据,并结构化存储 学术(论文)信息抽取(分析参考文献、摘要等) 可能的技术方案:MapReduce+BigTable 数据统计 基于抽取的数据进行统计分析(如分析被引用次数等) 可能的技术方案MapReduce+BigTable 学术信息BigTable 行键:论文标题 列键:作者、主题词、摘要、参考文献、期刊信息、被引用次数、下载链接…… 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何使用MapReduce抽取数据? 生成抽取目标(URL)文件 将目标文件分割为M块 寻找M个Worker分别做Map处理 查询网站的网页数据 是否包含论文描述信息 抽取论文描述信息,输出 按论文标题将输出排序 将论文描述信息存入BigTable 寻找若干Worker做Reduce处理 Map Reduce 自动处理 自动处理 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 分析论文信息表,二次MapReduce 论文A, 参考文献: {论文B, 论文C, 论文D} 论文B, 参考文献: {论文Q, 论文C, 论文A} 论文C, 参考文献: {论文D, 论文H, 论文A} 论文F, 参考文献: {论文A, 论文C} 论文E, 参考文献: {论文S, 论文A, 论文D} 论文S, 参考文献: {论文E, 论文F} 论文B, 1 论文C, 1 论文D, 1 论文Q, 1 论文C, 1 论文A, 1 论文D, 1 论文H, 1 论文A, 1 论文A, 1 论文C, 1 论文S, 1 论文A, 1 论文D, 1 论文E, 1 论文F, 1 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 归纳排序 论文B, 1 论文C, 1 论文D, 1 论文Q, 1 论文C, 1 论文A, 1 论文D, 1 论文H, 1 论文A, 1 论文A, 1 论文C, 1 论文S, 1 论文A, 1 论文D, 1 论文E, 1 论文F, 1 论文A, 1论文A, 1论文A, 1论文A, 1 论文B, 1 论文C, 1论文C, 1论文C, 1 论文D, 1论文D, 1论文D, 1 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 应用场景分析2——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) Reduce操作 论文A, 1论文A, 1论文A, 1论文A, 1 论文B, 1 论文C, 1论文C, 1论文C, 1 论文D, 1论文D, 1论文D, 1 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 论文A, 4 论文B, 1 论文C, 3 论文D, 3 论文E, 1 论文F, 1 论文H, 1 论文Q, 1 论文S, 1 应用场景分析2——Google搜索 数据检索 有可能采用MapReduce实现 关键词搜索可能的处理流程 子表是否有Content列 是否包含关键词 关键词语义分析 任务划分(子表+新关键词) 输出到临时结果表 获取行数据中Content项 处理完成 分配Worker 结果输出 Map Reduce 应用场景分析2——Google搜索 数据检索 搜索结果可能通过临时表存储 每个关键词对应一个临时子表 检索系统根据输入枚举现存检索结果的相似关键词 如果临时子表中存在检索结果,直接输出 应该存在机制刷新临时子表 * Google云计算应用场景分析 电子工业出版社 刘鹏主编《云计算》教材配套课件5 主要内容 Google云计算技术框架 应用场景分析1:Google网站流量分析 应用场景分析2:Google搜索 Google云计算的技术架构 Google的云计算应用均依赖于四个基础组件 分布式文件存储,GFS 并行数据处理模型MapReduce 分布式锁Chubby 结构化数据表BigTable Google云计算应用 MapReduce BigTable GFS Chubby Google云计算的技术架构 Google云计算应用 BigTable GFS MapReduce Chubby 组件调用关系分析 Google云计算的技术架构 Chubby的作用 为GFS提供锁服务,选择Master节点;记录Master的相关描述信息 通过独占锁记录Chunk Server的活跃情况 为BigTable提供锁服务,记录子表
您可能关注的文档
- 120.116.20.9traffic-eduppt交通安全宣导多一份用心生命安全有保障.ppt.ppt
- 1MHz单周期控制同步整流Buck变换器的设计与实现-电测与仪表.doc
- 1智能交通发展与技术Y交通管理中的应用.PDF
- 1高速公路及快速公路-1黄靖雄教授.PDF
- 2009ISO90012015IATF16949201619IATF16949标准的结构.ppt
- 2009万能盃美食大赛-万能科技大学餐饮管理系DepartmentofFood.doc
- 2011年三季度义乌市场信用指数报告.doc
- 2014年浙江省电子与电工类职业技能操作考试-浙江省教育考试院.doc
- 2018渤海船院中职升高职考试复习题.doc-渤海船舶职业学院.doc
- 2、物资管理系统技术要求.doc
最近下载
- 工学一体化课程《小型网络管理与维护》任务4单元4教学单元活动方案.docx VIP
- 铜矿开采施工人员培训方案.docx
- 配电架空线路通道内树木砍伐修剪施工方案.docx VIP
- 中文网络成瘾量表修订版(CIASR).docx VIP
- 如何正确上颌架?.pptx VIP
- 《燕尾型配合工件说》课件.pptx VIP
- ISO 4210-8-2023中文+英文-自行车–自行车的安全要求-第8部分.pdf
- 超星尔雅学习通《中华民族共同体概论(云南大学)》章节测试答案.docx VIP
- T∕ZZB 1228-2019 强制式简易升降机.pdf VIP
- (正式版)S-H-T 3551-2024 石油化工仪表工程施工及验收规范.docx VIP
原创力文档


文档评论(0)