- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
整天看用户埋点数据,知道数据是咋来的吗?
我们平时看到的报表复杂而多样,能够通过多种纬度的数据评估用户的使用习惯和对应功能
的价值。然而这些报表是如何产生的呢?今天咱们就看看上报数据一步一步变成报表的大致
流程。
所有上报的数据都是为了记录一次事件的发生或者描述一个状态,具体的上报数据可以设计为 KEY-
VALUE 的形式或者数据组合的形式。 KEY-VALUE 的形式主要用来统计简单的计数类上报,如按钮
点击的次数,某个选项的值等, KEY 用来区分不同的事件, VALUE 代表事件发生的次数、状态值等
;数据组合的主要用来描述一个事件或者状态需要多种属性描述的场景,比如下载成功事件,描述
这个事件的数据组合可能包括对应的下载地址、下载渠道来源、下载耗时等信息。
当上报数据设计好后,后续的工作才能正常开展。下面一步一步说。
1 、埋点
所谓「埋点」,就是在正常的功能逻辑中添加统计逻辑。拿统计微信右上角「 + 」的点击次数为例,
上报的数据可以采用 KEY-VALUE 形式,我们定义 KEY 为「 CLICK_ADD_BT N 」,VALUE 的值为点
击的次数。当用户点击「 + 」时,展示菜单的代码会通过按钮的「回调」(详见《聊聊同步、异步
和回调》)来触发执行,程序猿在业务代码执行完后,又加上了统计代码,把「 CLICK_ADD_BT N
」对应的 VALUE 加 1 ,「+ 」被统计到了一次使用。
2 、上报
并不是每统计到一次事件或者状态就会发起数据上报,客户端统计到的数据会先暂时存储在内存或
者磁盘上,当用户启动、退出应用程序的时候,或者在其他更合适的时机,将当前周期统计到的事
件批量上报到服务器,这样做的目的主要是考虑到与服务器多次建立连接的性能损耗(详见《不得
不知的 T CP 和UDP 》)和流量问题(相同大小的数据分多次发送比一次发送要消耗更多流量),另
外客户端在上报具体的统计事件之外,还会将标识用户的 ID一并上报,后续用于计算用户相关的数
据如日使用用户和留存率等。
3 、后台记录日志
数据上报到服务器后,服务器会将客户端上报的原始数据存储到服务器的磁盘中。一般来说,非强
实时性的数据上报到服务器后,并不会立即参与计算,获得最终的统计结果,比如一个功能的日使
用次数,日用户数,日留存等数据,而是等到服务器负载较低的时间段利用预先配置的计划任务进
行离线处理。这样处理的目的是为了节约服务器资源(钱),因为大家肯定不想因为计算统计数据
而影响实时业务的处理效率。
4 、计算 入库
报表中展示的数据,并不是客户端上报的原始数据,比如「 + 」的使用次数、使用用户数、日留存
率这三组数据,都是通过对客户端上报的「 CLICK_ADD_BT N 」对应 VALUE 值的累加并结合上报
用户 ID二次计算得出的。
如果我们的产品达到微信这种日登陆数五六亿,那么每天上报的统计数据将是海量的,为了从这种
海量的数据中计算出「 + 」的使用次数、使用用户数等信息,就需要用到「数据仓库工具」,比如当
下流行的 Hive 处理工具,它基于 Hadoop 分布式系统基础框架,利用计算机集群的能力进行分布式
计算。当「数据仓库工具」计算出最终的结果后,计划任务会将结果(「 + 」的日使用次数、日使用
用户数等数据)保存到数据库中,也就是「入库」过程。「入库」后的数据才能与前端对接,组成
报表展示系统。
一般情况下,原始数据经过数据仓库工具处理后,对应的日志文件还会在服务器上保留一段时间(
一般 3~7 天),以便追溯统计问题,所以,如果发现统计数据有问题问题,一定要及时反馈给负责
的程序猿,否则就会「死」无对证咯。
5 、展示
当数据「入库」后,报表的展示就水到渠成了。报表系统通过前端页面用户的输入获取查询条件,
然后通过后台数据库查询获得结果,在前端展示出来。
这里只是简述了埋点数据上报、统计的大致流程,每个过程中还有很多细节要解决,如后台日志乱
码问题、客户端异常导致数据丢失等。一旦数据出现问题,经常需要联系各方人员定位原因。在此
呼
您可能关注的文档
- 整车装配通用工艺守则10215.pdf
- 整改措施及努力方向.pdf
- 整改工作会议纪要.pdf
- 整改记录表最新分析和总结.pdf
- 整个蛋糕就那么大,如何寻找市场切入点?.pdf
- 整合版电炉炼钢计算部分.pdf
- 整合人教版高中地理必修一第二章单元测试.pdf
- 整合谈判案例.pdf
- 整理:海商法选择题.pdf
- 整理《希腊神话故事》含答案.pdf
- 2025年海南师范大学中国近现代史纲要期末考试模拟题附答案.docx
- 2025年西北农林科技大学思想道德修养与法律基础期末考试模拟题及答案1套.docx
- 2025年武汉工程职业技术学院马克思主义基本原理概论期末考试模拟题必考题.docx
- 2025年广州南方学院中国近现代史纲要期末考试模拟题必考题.docx
- 2025年广东茂名幼儿师范专科学校马克思主义基本原理概论期末考试模拟题附答案.docx
- 2025年浙江经济管理职工大学思想道德修养与法律基础期末考试模拟题附答案.docx
- 2025年湖北轻工职业技术学院中国近现代史纲要期末考试模拟题附答案.docx
- 2025年福建生物工程职业技术学院马克思主义基本原理概论期末考试模拟题附答案.docx
- 2025年湘潭科技职业学院思想道德修养与法律基础期末考试模拟题必考题.docx
- 2025年怀化师范高等专科学校中国近现代史纲要期末考试模拟题必考题.docx
最近下载
- 工业机器人系统操作员(中级工)理论考核试卷及答案(六).docx VIP
- 专注的惊人力量.pptx VIP
- 陕西省西安市西咸新区2024-2025学年六年级上学期期末英语试题.docx VIP
- 国有企业人力资源工作流程图(收藏了).doc VIP
- MT∕T 244.1-2020 煤矿窄轨车辆连接件 连接链.pdf
- 加油站税控初始化管理系统V12.pdf VIP
- 房建施工工序定额及施工工效大全.pdf VIP
- 《天津市建设项目配建停车场(库)标准》DB29-6-2004详解.docx
- 《分析化学》全套课件完整版)ppt.pptx VIP
- 专题06 《昆虫记》中考考试题及典型习题训练 (含答案析)-中考语文常考名著之阅读指导及考试题训练.docx VIP
原创力文档


文档评论(0)