6-3生存分析在快手的应用(1).pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2021 | ⽣存分析在快⼿的应⽤ ⾼梓尧 - 快⼿数据科学总监 生存分析在快手 的应用 快手数据分析部 – 高梓尧 为什么选择 ⽣存分析 描述⽤户活跃度 DAU的局限性 ⽤户的⾏为随时间推移陆续发⽣,发⽣时间的快慢能为分析决策提供重要的信息,但 DAU只体现了⼀定时间窗⼝内⽤户留存的结果,并未描述重要的时间信息 举例: A和B均有100万DAU,但A⽤户每隔4⼩时使⽤⼀次(每天6个sessions),B⽤户每 隔6⼩时使⽤⼀次(每天4个sessions),谁的⽤户活跃度更⾼? 为什么选择⽣存分析 ⼀般回归模型处理的是截⾯数据,只关注事件的结果(⽤户是否使⽤APP) ⽣存分析既关注事件结果(⽤户使⽤APP与否),⼜将事件发⽣的时间纳入了分析框架,能 够有效刻画事件随时间变化的规律 ⽣存分析概述 快⼿内部⽂件,该⽂件属于快⼿的财产;因此,未经允许不得复制或散发。 KuaiShou Confidential. This confidential document is the property of Kwai Corp.; Therefore, Shall not be copied or circulated without permission ⽣存分析基本概念 ⽣存分析是研究TIME-TO-EVENT DATA,直到发⽣⼀个或多个事件的预期持续时间的⼀系 列统计分析⽅法。取名⽣存分析是因为最早被医学领域采⽤,研究病⼈从诊断出癌症后使⽤不 同药物治疗后的死亡时间。 概念 • 事件(event): 死亡,疾病发⽣,合约终⽌ • ⽣存时间(t): 从观察期开始(例如⼿术或开 始治疗)到事件发⽣的时间 • 删失(censorship): 在观察期间内(last follow-up)没有观测到事件发⽣ • ⻛险中的数量:在观察期内可追踪其状态且 未发⽣事件的对象数量 数据特征 • 非负,离散型,非连续型 • 删除missing data - Partial information • Moments for survival data: mean or median - 半衰期 ⽣存分析基本概念 ⽣存函数:对于观察时间窗内的任意时刻t 其中F(t)代表⽣存时间的累 (t0),⽣存函数反映的是研究对象到该时刻仍 积分布函数,表示事件发⽣ 时间未超过时刻t的概率。 未发⽣事件的概率。 ⻛险函数:指的是在时间t之前未发⽣任何事件⽽ 其f(t)代表⽣存时间的概率密度函数 恰好在时间t发⽣事件的概率,也称为条件死亡概 率。 累计⻛险函数:刻画⽣存时间不超过某个时间 点的概率。 ⼏个函数间的关系: ⽣存函数的刻画 参数⽅法: 假定⽣存时间符 非参数法:不对数据分布 合某种分布(指数分布、威布 做任何假设,⽽是直接⽤ 尔分布、对数正态分布等), 概率乘法定理估计⽣存 根据样本观测值来估计假定分 率,常⻅⽅法有Kaplan- 布模型中的参数,以获得⽣存 Meier曲线,Nelson- 时间的概率密度模型 Aalen累计⻛险曲线 ⽣存函数的刻画 - KM曲线 假设我们有共k个观测

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档