离线自动统计PVUV原理-美柚.PPT

下载文档 降价啦

9
0
约1.9千字
约 15页
2017-12-22 发布于天津
举报
版权申诉
保障服务

离线自动统计PVUV原理-美柚.PPT

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

离线自动统计PVUV原理-美柚

PV,UV自动统计方案原理 PPT模板：/moban/ PPT素材：/sucai/ PPT背景：/beijing/ PPT图表：/tubiao/ PPT下载：/xiazai/ PPT教程： /powerpoint/ 资料下载：/ziliao/ 范文下载：/fanwen/ 试卷下载：/shiti/ 教案下载：/jiaoan/ PPT论坛： PPT课件：/kejian/ 语文课件：/kejian/yuwen/ 数学课件：/kejian/shuxue/ 英语课件：/kejian/yingyu/ 美术课件：/kejian/meishu/ 科学课件：/kejian/kexue/ 物理课件：/kejian/wuli/ 化学课件：/kejian/huaxue/ 生物课件：/kejian/shengwu/ 地理课件：/kejian/dili/ 历史课件：/kejian/lishi/ Contents 目录统计流程原理分析抽象归纳方案输出性能优化统计流程 01 提统计需求(产品提统计需求,数据提埋点需求) 埋点及校验(客户端埋点,测试校验) 数据ETL(数据开发,生成流水表) 根据统计需求,对流水表写SQL语句统计结果数据输出本方案主要是要简化3,4,5步骤原理分析 02 原理分析维度 (APP,OS,身份,时间段等等) 指标 (PV,UV,留存,新增用户数等等) 维度: A. 必选维度:每次查询都会选择该维度下的某个值 B. 可选维度:查询可以不选值的维度最简单的区别:查询页面的下拉框是否有个空选项(A没有空选项,B有空选项) 是否必选维度对统计开发的影响: 由于odps不支持rollup 和 cube语法,因此每增加一个可选维度,需要写的SQL数是原来的两倍,也就是: 没有可选维度:1条查询语句 1个可选维度:2条查询语句 2个可选维度:4条查询语句 7个可选维度:128条查询语句抽象归纳 03 流水表抽象: 可以把不同的流水表抽象到同一张”流水表”,并增加一个”统计”的维度例如:用户记录流水表有:uid,app,os,time,mode维度用户社区流水表有:uid,app,os,time,action,forum_id维度可以抽象为: uid,D1,D2,D3,D4,D5,D6, statistics_dim维度则这两个流水表就可以统一到一个”流水表”中了维度处理: 1.必选维度 ----直接SQL进行聚合运算就可以了 2.可选维度流水表里的一条数据,在每碰到一个可选维度,就需要把这条数据裂变成两条(一条跟本身一样,再生成一条,其他维度都一样,这个可选维度的值是NULL的) 如果有1个可选维度,则裂变成2条如果有4个可选维度,则裂变成16条形成一个”大流水表” 大流水表聚合: 在大流水表上进行聚合运算方案输出 04 方案输出提供配置表: my_data_dim. dm_bi_item 2. 根据配置(action_code)从odps_access_parsed等,拉取对应的流 1 水(也可以是自己处理过的流水表) 3. 根据配置(expanded_field[可选维度]),生成”大流水表” 4. 根据所有维度进行聚合运算 5. 把聚合的结果统一导出性能优化 05 此方案最大的问题: 流水数量多,可选维度多时会让”大流水表”变得很大很大,在最后做聚合运算的时候需要消耗大量的资源,从而拖慢怎么集群的运行效率. 解决方案: “大流水表”按照uid的hash值分到不同的分区中,然后再对这些分区分别计算PV,UV; 最后将各个分区计算出来的PV,UV直接求和,就可以得出最终的PV,UV 谢谢! 美柚_九戒 2017.3.23 * *