统计学(4):AB测试—实验流程.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

统计学(4):AB测试—实验流程

在之前的两篇⽂章⾥,我们详细介绍了,以及有了这些基础之后,我们来看⼀下实际⼯作如何进⾏AB测试

1AB测试的流程

⼯作中进⾏完整的AB测试流程包括以下⼏个步骤:

分析现状:针对当前产品情况,根据业务数据,提出优化⽅案(⼀般由数据分析师和产品经理确定)

确定评估指标:确定衡量优化效果的指标(如:CTR,停留时长等)

设计与开发:确定优化版本的设计原型,并完成技术实现(通常与数据分析师⽆关)

分配流量:确定实验分层分流⽅案,以及实验需要切分多少流量,⼀般根据最⼩样本量确定

确定实验有效天数:实验的有效天数即为实验进⾏多少天能达到流量的最⼩样本量

采集并分析数据:提取实验数据,对实验结果进⾏分析

根据试验结果,确定是否推⼴到全量或者是调整之后继续实验

了解了整体的流程之后,我们对其中⼀些⽐较关键的地⽅做进⼀步的阐述

2分配流量

通常由于流量有限,以及同时进⾏的AB实验量⽐较⼤,为了保证流量⾼效使⽤需要利⽤分层和分流的流量分配机制

根据不同的实验共享流量的情况下,不同的实验之间是否会产⽣⼲扰,将实验类型分为正交实验和互斥实验

2.1正交实验

正交是指⽤户进⼊所有的实验之间没有必然关系⽐如进⼊X层的⽤户再进⼊Y层也是均匀分布的,⽽不是集中在某

⼀块区间内

2.2互斥实验

指两个实验流量独⽴,⽤户只能进⼊其中⼀个实验⽐如进⼊X实验的⽤户就不能进⼊Y实验

2.3分层、分流规则

为了更充分、更⾼效的使⽤流量,实际往往是多组试验同时存在,既有正交,⼜有互斥

(1)规则描述

域1和域2⽠分流量,域1和域2是互斥的

域2中,B1层、B2层、B3层的流量相等,此时B1层、B2层、B3层的流量是正交的

B1层中的B1-1,B1-2,B1-3之间⼜是互斥的

根据以上规则我们可以不断的在此模型中增加域、层,并且可以互相嵌套这要与实际的业务来相结合来确定

(2)使⽤场景

B1层、B2层、B3层应分别设置为互不⼲扰的实验(正交实验),⽐如UI层、搜索结果层、⼴告结果层,这样不会对实际

业务产⽣影响

同⼀类型的实验(互斥实验)应该在同⼀层内进⾏,并且需要考虑到不同实验互相的依赖,⽐如按照B1层切分

域1的此种分流的意义在于,当我们做⼀个实验,并且希望其他任何实验都不能对实验进⾏⼲扰,保证最后实验的可信

2.4分流算法

对于庞⼤的⽤户群体,也就是我们所说的流量我们如何实现正交和互斥实验的随机均匀分流呢?通常我们⽤的是

Hash算法,具体算法原理这⾥就不多做介绍了,我们主要了解下在不同实验组成的流量层内、以及同⼀实验不⽤版本

之间如何利⽤哈希算法分流:

(1)流量层内分流

流量层内分流的hash因⼦包括设备id、流量层id,每⼀个设备id代表⼀个⽤户当请求流经⼀个流量层时,只会命中层

内⼀个实验,即同⼀个⽤户同⼀个请求每层最多只会命中⼀个实验

通过murmurhash2算法,可以使hash因⼦通过微⼩的变化⽽结果差异巨⼤然后对100求余之后+1,最终得到1到

100之间的数值

(2)实验内版本分流

实验的hash因⼦有设备id、策略id、流量层id通过策略id与版本进⾏匹配规则如下:

3最⼩样本量

从理论上讲,样本量越多越好:

因为当样本数量很少的时候,实验容易被新的样本点带偏,造成了实验结果不稳定,难以得出确信的结论

相反的,样本数量变多,实验说服性也更强

但是在现实操作中,样本量应该越少越好,这是因为:

流量有限:公司流量有限,不合理分配流量,产品迭代速度会⼤⼤降低

试错成本⼤:如果使⽤50的流量进⾏实验,⼀周后结果表明实验组的总收⼊下降了20算下来,实验在⼀周内

给整个公司带来了10的损失试错成本太⾼

因此需要计算满⾜实验要求的最⼩样本量,最⼩样本量是根据统计功效进⾏计算的,主要分两类:绝对值类(例如:

UV)和⽐率类(例如:点击率):

(1)均值类

均值类假设检验形式通常为:

故对应的样本量计算公式为:

其中,两组样本量之⽐为

统计功效的计算公式为:

(2)⽐例类

均值类假设检验形式通常为:

故对应的样本量计算公式为:

统计功效的计算公式为:

4实验有效天数

实验的有效天数的确定需要考虑两个因素:

文档评论(0)

idowen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档