伴鱼事件分析平台设计.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
伴鱼大事分析平台设计 在伴鱼,服务器每天收集的用户行为日志达到上亿条,我们期望能够充分利用这些日志,了解用户行为模式,回答以下问题: 最近三个月,来自哪个渠道的用户注册量最高? 最近一周,北京地区的,发生过绘本扫瞄行为的用户,依据年龄段分布的情况如何? 最近一周,注册过伴鱼绘本的用户,7 日留存率如何?有什么变化趋势? 最近一周,用户下单的转化路径上,各环节的转化率如何? 为了回答这些问题,大事分析平台应运而生。本文将首先引见平台的功能,随后争辩平台在架构上的一些思考。 功能 总的来说,为了回答各种商业分析问题,大事分析平台支持基于大事的目标统计、属性分组、条件筛选等功能的查询。其中,大事指用户行为,例如登录、扫瞄伴鱼绘本、购买付费绘本等。更具体一些,大事分析平台支持三类分析:「大事分析」,「漏斗分析」,和「留存分析」。 大事分析 大事分析是指,用户指定一系列条件,查询目的目标,用于回答一个具体的分析问题。这些条件包括: 大事类型:指用户行为,采集自埋点数据;例如登录伴鱼绘本,购买付费绘本 目标:目标分为两类,基础目标和自定义目标基础目标:总次数(pv),总用户数(uv),人均次数(pv/uv)自定义目标:大事属性 + 计算类型,例如 「用户下单金额」的「总和/均值/最大值」 过滤条件:用于筛选查询所关怀的用户群体 维度分组:基于分组,可以进行分组之间的对比 时间范围:指定大事发生的时间范围 让我们举个具体的例子。我们期望回答「最近一周,在北京地区,不同年龄段的用户在下单一对一课程时,下单金额的平均数对比」这个问题。这个问题可以很直观地拆解为下图所示的大事分析,其中: 大事类型 = 下单一对一课程 目标 = 下单金额的平均数 过滤条件 = 北京地区 维度分组 = 依据年龄段分组 时间范围 = 最近一周 图注:大事分析创建流程 图注:大事分析界面 漏斗分析 漏斗分析用于分析多步骤过程中,每一步的转化与流失情况。 例如,伴鱼绘本用户的完整购买流程可能包含以下步骤:登录 app - 扫瞄绘本 - 购买付费绘本。我们可以将这个流程设置为一个漏斗,分析全体以及每一步转化情况。 此外,漏斗分析还需要定义「窗口期」,整个流程必需发生在窗口期内,才算一次成功转化。和大事分析类似,漏斗分析也支持选择维度分组和时间范围。 图注:漏斗分析创建流程 图注:漏斗分析界面 留存分析 在留存分析中,用户定义初始大事和后续大事,并计算在发生初始大事后的第 N 天,发生后续大事的比率。这个比率能很好地衡量伴鱼用户的粘性凹凸。 在下图的例子中,我们期望了解伴鱼绘本 app 能否足够吸引用户,因而我们设置初始大事为登录 app,后续大事为扫瞄绘本,留存周期为 7 天,进行留存分析。 图注:留存分析创建流程 图注:留存分析界面 架构 在架构上,大事分析平台分为两个模块,如下图所示: 数据写入:埋点日志从客户端或者服务端被上报后,经过 Kafka 消息队列,由 Flink 完成 ETL,然后写入 ClickHouse。 分析查询:用户通过前端页面,进行大事、条件、维度的勾选,后端将它们拼接为 SQL 语句,从 ClickHouse 中查询数据,呈现给前端页面。 图注:总架构图 不难看出,ClickHouse 是构成大事分析平台的核心组件。我们为了确保平台的功能,围绕 ClickHouse 的使用进行了细致的调研,回答了以下三个问题: 如何使用 ClickHouse 存储大事数据? 如何高效写入 ClickHouse? 如何高效查询 ClickHouse? 如何使用 ClickHouse 存储大事数据? 大事分析平台的数据来源有两大类:来源于埋点日志的用户行为数据,和来源于「用户画像平台」的用户属性数据。本文只引见埋点日志数据的存储,对「用户画像平台」感爱好的同学,可以期盼一下我们后续的技术文章。 在进行埋点日志的存储选型前,我们首先明确了几个核心需求: 支持海量数据的存储。当前,伴鱼每天产生的埋点日志在亿级别。 支持实时聚合查询。由于产品和运营同学会使用大事分析平台来探究多种用户行为模式,分析引擎必需能机警且高效地完成各种聚合。 ClickHouse 在海量数据存储场景被广泛使用,高效支持各类聚合查询,配套有成熟和活跃的社区,促使我们最终选择 ClickHouse 作为存储引擎。 依据我们对真实埋点数据的测试,亿级数据的简约查询,例如 PV 和 UV,都能在 1 秒内前往结果;对于留存分析、漏斗分析这类的简单查询,可以在 10 秒内前往结果。 「存在哪」的问题处理后,接下来回答「怎样存」的问题。ClickHouse 的列式存储结构格外适合存储大宽表,以支持高效查询。但是,在大事分析平台这个场景下,我们还需要支持「自定义属性」的存储,这时「大宽表」的存储方式就不尽抱负。

文档评论(0)

bob157641554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档