《云计算》教材配套课件5-Google云计算应用场景分析.pptVIP

  • 1
  • 0
  • 约6.63千字
  • 约 38页
  • 2017-05-21 发布于四川
  • 举报

《云计算》教材配套课件5-Google云计算应用场景分析.ppt

应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 数据抽取 寻找包含学术(论文)信息的网页数据,并结构化存储 学术(论文)信息抽取(分析参考文献、摘要等) 可能的技术方案:MapReduce+BigTable 数据统计 基于抽取的数据进行统计分析(如分析被引用次数等) 可能的技术方案MapReduce+BigTable 学术信息BigTable 行键:论文标题 列键:作者、主题词、摘要、参考文献、期刊信息、被引用次数、下载链接…… 应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 如何使用MapReduce抽取数据? 生成抽取目标(URL)文件 将目标文件分割为M块 寻找M个Worker分别做Map处理 查询网站的网页数据 是否包含论文描述信息 抽取论文描述信息,输出 按论文标题将输出排序 将论文描述信息存入BigTable 寻找若干Worker做Reduce处理 Map Reduce 自动处理 自动处理 应用场景分析2 ——Google搜索 数据整理(Google学术搜索) 如何获取论文统计数据(如论文引用次数) 分析论文信息表,二次MapReduce 论文A, 参考文献: {论文B, 论文C, 论文D} 论文B, 参考文献: {论文Q, 论文C, 论文A} 论文C, 参考文献: {论文D, 论文H, 论文A} 论文F, 参考

文档评论(0)

1亿VIP精品文档

相关文档