从转基因到搜索产品的优化—闲话BucketTesting.pdf

下载文档

0
0
约3.45千字
约 5页
2021-07-18 发布于上海
举报
版权申诉
保障服务

从转基因到搜索产品的优化—闲话BucketTesting.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

从转基因到搜索产品的优化 —闲话 Bucket Testing 1、优化改良无处不在如果要回顾即将远去的 2010 年，公众最关注的话题有哪些，相信转基因水稻“ ”必定榜上有名。对于这些通过基因工程，被人为创造出来的新物种，科学家虽然能保证高产与抗虫害能力，但是不能证明食用后对人体没有损害，这多少有些令人尴尬；而农业部在前景不明朗情况下批准商业化种植，则把公众推向了高风险境地。不过，抛开转基因技术所带来的食品安全风险，它与杂交、辐射变异在本质上是类似的，都是通过尝试着的改变生物的基因，来选拔良种。由于人们对于基因如何表达为生物性状的机理不是完全了解，加之基因在杂交过程中本身存在随机因素。这使得寻找良种的过程中需要不断尝试。因此，不论是孟山都公司通过基因工程来改造水稻种子，还是袁隆平老师通过不同水稻品种的杂交来培育优质水稻，其实在方法论上都是一致的：挑选一些样本，然后施加各种各样的变化因素，通过观察，找到最佳的样本。图1. 袁隆平的杂交水稻实验，可以看作是一种 BT S实践（图片来自网络） 2 、搜索产品的优化在互联网领域尤其是搜索领域，我们同样也面临着与选育良种类似的问题，即如何对一个搜索产品施加各种变化，从而发现效果最好的版本。说的再具体一点，为了寻找到效果最好的搜索产品，我们应该尝试着去改变搜索产品的哪些方面，以及在每个方面施加哪些可能的变化。这问题不像看上去的那样简单。首先，这个效果的定义，含义可就丰富了。淘宝搜索首先要考虑搜索结果与用户 query 之间的相关性；除了相关性要求之外，对于淘宝搜索而言，是不是能有效的促进成交，也是要重点考虑的效果之一；此外，如果在搜索结果中，大量存在假冒伪劣产品，那这个效果也是要打折扣的；另外，如果大部分的搜索结果里，都是那些大卖家在抛头露面，中小卖家没有展现机会，对于淘宝生态圈的长期发展也是不利的。因此，淘宝搜索所考虑的效果问题要比一般意义上的搜索引擎更加复杂。其次，搜索产品的哪些方面可以做改动，如果要一一列举就太多了。事实上，搜索产品的任何一个地方的不完善，都有可能降低搜索产品的整体效果。笔者试着将淘宝搜索产品的可变化因素整理成一个图，希望各位看官能有一个感性的认知。图2. 淘宝搜索产品的可变化因素 3 、分桶测试 (Bucket Testing, BTS) 诸位看官可能已经意识到了，如何优化一个搜索产品，实际情况应该比我上面说的更加复杂，这真是一个坏消息；不过我们也有一个好消息，因为对于这个问题的答案，业界已经有答案了，这就是分桶测试 (bucket testing) ，简称 BT S 。所谓的分桶测试，是让不同的用户在访问特定的互联网产品的时候，由系统来决定用户的分组号（我们称为 bucket id ），然后根据分组号，令用户看到的是不同的产品版本，用户在不同版本产品下的行为将被记录下来，这些行为数据通过数据分析形成一系列指标，而通过这些指标的比较，最后就形成了各版本之间孰优孰劣的结论。 3.1 A/B 测试 (A/B Testing) 分桶测试的最简单形式，称为 A/B testing 。即设定一个基准桶，再设定一个或以上的测试桶。然后考察测试桶与基准桶之间在各项指标上的差异，最后确定测试桶的效果。这种方法论，很容易在现实生活中找到影子。其实，改革初期建立的深圳特区，就是一场伟大的 A/B testing ，基准桶就是中国内地，测试桶就是深圳，当时各自的用户量是 9亿 vs 30 万（以当时的人口计算）。对于 A/B testing 而言，测试桶的用户量、流量都不会太大，这是为了确保 BT S 万一失败，对于整体系统的影响尽量小。当然，测试桶的用户量、流量也不能太少，否则测试效果容易受到未知因素的干扰，而变得不稳定。对于 A/B testing 而言，判断测试组与基准组孰优孰劣非常简单，只要将二者的指标进行对比即可。但是，如果版本中包含多个因素，那么确定每个因素的贡献，就不好评估了。这就好比，我们不能仅仅根据内地与深圳的 GDP 差异，就能断定是因为当时良好的投资环境，还是地理因素，或其它什么因素，是导致了深圳当时成功的主要因素。所以，利用

您可能关注的文档

文档评论（0）

tianya189 + 关注: 官方认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体阳新县融易互联网技术工作室

IP属地上海

统一社会信用代码/组织机构代码: 92420222MA4ELHM75D

1亿VIP精品文档

更多 >

从转基因到搜索产品的优化—闲话BucketTesting.pdf