- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浅谈AB测试里常见的辛普森悖论
浅谈A B测试里常见的辛普森悖论
优秀的增长黑客 ,不会去投机取巧“制造数据” , 是认真思考和试验 ,用科学可信的数据来
指导自己和企业的决策 ,通过无数次失败的和成功的A B测试试验 ,总结经验教训 ,变身能
力超强的超级英雄。
辛普森悖论 (Simpso n’s Paradox )是英国统计学家E.H.辛普森 (E.H.Simpso n )于1951年提出的
悖论 ,即在某个条件下的两组数据 ,分别讨论时都会满足某种性质 ,可是一旦合并考 ,却可能导
致相反的结论。
举一个辛普森悖论的简单小例子 :一个大学有商学院和法学院两个学院。这两个学院的女生都抱怨“
男生录取率比女生录取率高” ,有性别歧视。但是学校做总录取率统计 ,发现总体来说女生录取率却
远远高于男生录取率 !
商学院男生录取率75%高于女生录取率4 9% ,法学院男生录取率10%也高于女生录取率5% ,但是
总计来说男生录取率只有21% ,只有女生录取率42%的一半。
为什么两个学院都是男生录取率高于女生录取率 ,但是加起来男生录取率却不如女生录取率呢 ?主
要是因为这两个学院男女比例很不一样 ,具体的统计学原理我们后面会详细分析。
这个诡异 (Co un er in ui ive )的现象在现实生活中经常被忽略 ,毕竟只是一个统计学现象 ,一般
情况下都不会影响我们的行动。但是对于使用科学的 A B 测试进行试验的企业决策者来说 ,如果不
了解辛普森悖论 ,就可能会错误的设计试验 ,盲目的解读试验结论 ,对决策产生不利影响。
我们用一个真实的医学 A B 测试案例来说明这个问题。这是一个肾结石手术疗法的 A B 测试结果 :
看上去无论是对于大型结石还是小型结石 ,A 疗法都比 B 疗法的疗效好。但是总计 言 ,似乎 B 疗
法比 A 疗法要好。
这个 A B 测试的结论是有巨大问题的 ,无论是从细分结果看 ,还是从总计结果看 ,都无法真正判断
哪个疗法好。
那么 ,问题出在哪里呢 ?这个 A B 测试的两个实验组的病历选取有问题 ,都不具有足够的代表性。
参与试验的医生人为的制造了两个试验组本身不相似 ,因为医生似乎觉得病情较重的患者更适合 A
疗法 ,病情较轻的患者更适合 B 疗法 ,所以下意识的在随机分配患者的时候 ,让 A 组里面大结石
病历要多 , B 组里面小结石病历要多。
更重要的问题是 ,很有可能影响患者康复率的最重要因素并不是疗法的选择 , 是病情的轻重 !换
句话说 ,A 疗法之所以看上去不如 B 疗法 ,主要是因为 A 组病人里重病患者多 ,并不是因为 A 组
病人采用 A 疗法。
所以 ,这一组不成功的 A B 测试 ,问题出在试验流量分割的不科学 ,主要是因为流量分割忽略了一
个重要的“隐藏因素” ,也就是病情轻重。正确的试验实施方案里 ,两组试验患者里 ,重病患者的比
例应该保持一致。
因为很多人容易忽略辛普森悖论 ,以至于有人可以专门利用这个方法来投机取巧。举个例子 ,比
赛100场球赛以总胜率评价好坏。取巧的人专找高手挑战20场 胜1场 ,另外80场找平手挑战
胜4 0场 ,结果胜率4 1% ;认真的人则专挑高手挑战80场 胜8场 , 剩下20场平手打个全胜 ,结果
胜率为28% ,比4 1%小很多。但仔细观察挑战对象 ,后者明显更有实力。
从这几个辛普森悖论的例子出发 ,联想到我们互联网产品运营的实践里 ,一个非常常见的误判例子
是这样的 :拿1%用户跑了一个试验 ,发现试验版本购买率比对照版本高 ,就说试验版本更好 ,我
们要发布试验版本。其实 ,可能只是我们的试验组里圈中了一些爱购买的用户 已。最后发布试验
版本 ,反 可能降低用户体验 ,甚至可能造成用户留存和营收数额的下降。
那么 ,如何才能在 A B 测试的设计 ,实施 ,以及分析的时候 ,规避辛普森悖论造成的各种大坑呢 ?
最重要的一点是 ,要得到科学可信的 A B 测试试验结果 ,就必须合理的进行正确的流量分割 ,保证
试验组和对照组里的用户特征是一致的 ,并且都具有代表性 ,可以代表总体用户特征。这个问题一
直是 A ppA dhoc A/B Tes ing 云服务的云端系统着力研究和解决的问题。
在这里 ,特别要提出一下这个问题的一个特殊属性 :在流量试验越大时 ,辛普森悖论发生的条件越
有可能触发。这是一个和大数定理以及中心极限定理等“常规”实践经验完全不同的统计学现象。换
句话说 ,大流量试验比小流量试验可以消除很多噪音和不确定性 ,但是反 可能受到辛普森悖论的
影响。
举个例子说明 :如果只是拿100人做试验 ,50人一组随机分
您可能关注的文档
- 正交矩阵的特征多项式及特征根.pdf
- 正弦定量和余弦定理.ppt
- 武汉大学2017年硕士研究生基础数学专业介绍_武大考研论坛.pdf
- 武汉大学2007-2008-1数院题答.pdf
- 武林立志传——修改秘籍及秘籍代码.pdf
- 武汉大学生产运作管理50题答案详解14.docx
- 武汉大学战争史2014考题.docx
- 武汉理工大学2015考博英语翻译“五大代词”处理方法.pdf
- 每日大圆银泰、青岛鲁银操作建议.doc
- 每天晚上不吃饭一个月能减多少斤晚上不吃饭害大于利.pdf
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
文档评论(0)