浅谈AB测试里常见的辛普森悖论.pdf

下载文档 降价啦

7
0
约2.79千字
约 4页
2017-08-11 发布于浙江
举报
版权申诉
保障服务

浅谈AB测试里常见的辛普森悖论.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

浅谈AB测试里常见的辛普森悖论

浅谈A B测试里常见的辛普森悖论优秀的增长黑客，不会去投机取巧“制造数据” ，是认真思考和试验，用科学可信的数据来指导自己和企业的决策，通过无数次失败的和成功的A B测试试验，总结经验教训，变身能力超强的超级英雄。辛普森悖论（Simpso n’s Paradox ）是英国统计学家E.H.辛普森（E.H.Simpso n ）于1951年提出的悖论，即在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考，却可能导致相反的结论。举一个辛普森悖论的简单小例子：一个大学有商学院和法学院两个学院。这两个学院的女生都抱怨“ 男生录取率比女生录取率高” ，有性别歧视。但是学校做总录取率统计，发现总体来说女生录取率却远远高于男生录取率！商学院男生录取率75%高于女生录取率4 9% ，法学院男生录取率10%也高于女生录取率5% ，但是总计来说男生录取率只有21% ，只有女生录取率42%的一半。为什么两个学院都是男生录取率高于女生录取率，但是加起来男生录取率却不如女生录取率呢？主要是因为这两个学院男女比例很不一样，具体的统计学原理我们后面会详细分析。这个诡异（Co un er in ui ive ）的现象在现实生活中经常被忽略，毕竟只是一个统计学现象，一般情况下都不会影响我们的行动。但是对于使用科学的 A B 测试进行试验的企业决策者来说，如果不了解辛普森悖论，就可能会错误的设计试验，盲目的解读试验结论，对决策产生不利影响。我们用一个真实的医学 A B 测试案例来说明这个问题。这是一个肾结石手术疗法的 A B 测试结果：看上去无论是对于大型结石还是小型结石，A 疗法都比 B 疗法的疗效好。但是总计言，似乎 B 疗法比 A 疗法要好。这个 A B 测试的结论是有巨大问题的，无论是从细分结果看，还是从总计结果看，都无法真正判断哪个疗法好。那么，问题出在哪里呢？这个 A B 测试的两个实验组的病历选取有问题，都不具有足够的代表性。参与试验的医生人为的制造了两个试验组本身不相似，因为医生似乎觉得病情较重的患者更适合 A 疗法，病情较轻的患者更适合 B 疗法，所以下意识的在随机分配患者的时候，让 A 组里面大结石病历要多， B 组里面小结石病历要多。更重要的问题是，很有可能影响患者康复率的最重要因素并不是疗法的选择，是病情的轻重！换句话说，A 疗法之所以看上去不如 B 疗法，主要是因为 A 组病人里重病患者多，并不是因为 A 组病人采用 A 疗法。所以，这一组不成功的 A B 测试，问题出在试验流量分割的不科学，主要是因为流量分割忽略了一个重要的“隐藏因素” ，也就是病情轻重。正确的试验实施方案里，两组试验患者里，重病患者的比例应该保持一致。因为很多人容易忽略辛普森悖论，以至于有人可以专门利用这个方法来投机取巧。举个例子，比赛100场球赛以总胜率评价好坏。取巧的人专找高手挑战20场胜1场，另外80场找平手挑战胜4 0场，结果胜率4 1% ；认真的人则专挑高手挑战80场胜8场，剩下20场平手打个全胜，结果胜率为28% ，比4 1%小很多。但仔细观察挑战对象，后者明显更有实力。从这几个辛普森悖论的例子出发，联想到我们互联网产品运营的实践里，一个非常常见的误判例子是这样的：拿1%用户跑了一个试验，发现试验版本购买率比对照版本高，就说试验版本更好，我们要发布试验版本。其实，可能只是我们的试验组里圈中了一些爱购买的用户已。最后发布试验版本，反可能降低用户体验，甚至可能造成用户留存和营收数额的下降。那么，如何才能在 A B 测试的设计，实施，以及分析的时候，规避辛普森悖论造成的各种大坑呢？最重要的一点是，要得到科学可信的 A B 测试试验结果，就必须合理的进行正确的流量分割，保证试验组和对照组里的用户特征是一致的，并且都具有代表性，可以代表总体用户特征。这个问题一直是 A ppA dhoc A/B Tes ing 云服务的云端系统着力研究和解决的问题。在这里，特别要提出一下这个问题的一个特殊属性：在流量试验越大时，辛普森悖论发生的条件越有可能触发。这是一个和大数定理以及中心极限定理等“常规”实践经验完全不同的统计学现象。换句话说，大流量试验比小流量试验可以消除很多噪音和不确定性，但是反可能受到辛普森悖论的影响。举个例子说明：如果只是拿100人做试验，50人一组随机分