02 Google云技术分析 V1.0_From WJJ.pptVIP

  • 4
  • 0
  • 约1.51万字
  • 约 93页
  • 2017-08-10 发布于河南
  • 举报
02 Google云技术分析 V1.0_From WJJ.ppt

* BigTable中的表设计 统计数据表 行键:网站URL(倒排) 列键:点击次数(如记录最近一个月每日的访问次数等)、页面关注度(如记录网站页面的访问比率)、来源网站(如记录TOP10)、目标网站(如记录TOP10)… 每个列中记录的内容是字符串,Analytics在查询后需要解析字符串获得统计结果 可根据统计内容的增多增加新的列 目前尺寸约20TB 业务流程分析 数据采集 原始点击数据表 数据处理 统计数据表 数据查询 MapReduce 基础设施 应用服务器集群 BigTable集群1 BigTable集群2 GFS集群 Chubby集群 MapReduce集群 数据采集 数据来源 页面内嵌脚本 点击行为脚本 应用服务器获取到数据后,存入BigTable 数据采集 数据存储流程 向BigTable中写入点击信息 寻找子表服务器 向内存临时子表写入信息(含排序) 如超过阈值则存储为子表文件 GFS:存储子表文件 子表合并、压缩 数据处理 例如,统计网站(如)过去一周网页访问比例 数据处理流程 数据查询 MapReduce操作 数据存储 点击数据表 统计数据表 GFS 数据处理:MapReduce Map操作 假设过去一周查询结果文件在GFS中包含M个Chunk,那么Master寻找M个空闲的Worker,分别处理这M个Chunk,得到每个网站中页面的访问次

文档评论(0)

1亿VIP精品文档

相关文档