从转基因到搜索产品的优化—闲话BucketTesting.pdf

从转基因到搜索产品的优化—闲话BucketTesting.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从转基因到搜索产品的优化 —闲话 Bucket Testing 1、优化改良无处不在 如果要回顾即将远去的 2010 年,公众最关注的话题有哪些,相信 转基因水稻“ ”必定榜上有名。对于 这些通过基因工程,被人为创造出来的新物种,科学家虽然能保证高产与抗虫害能力,但是不能证 明食用后对人体没有损害,这多少有些令人尴尬;而农业部在前景不明朗情况下批准商业化种植, 则把公众推向了高风险境地。不过,抛开转基因技术所带来的食品安全风险,它与杂交、辐射变异 在本质上是类似的,都是通过尝试着的改变生物的基因,来选拔良种。由于人们对于基因如何表达 为生物性状的机理不是完全了解,加之基因在杂交过程中本身存在随机因素。这使得寻找良种的过 程中需要不断尝试。因此,不论是孟山都公司通过基因工程来改造水稻种子,还是袁隆平老师通过 不同水稻品种的杂交来培育优质水稻,其实在方法论上都是一致的:挑选一些样本,然后施加各种 各样的变化因素,通过观察,找到最佳的样本。 图1. 袁隆平的杂交水稻实验,可以看作是一种 BT S实践(图片来自网络) 2 、搜索产品的优化 在互联网领域尤其是搜索领域,我们同样也面临着与选育良种类似的问题,即如何对一个搜索产品 施加各种变化,从而发现效果最好的版本。说的再具体一点,为了寻找到效果最好的搜索产品,我 们应该尝试着去改变搜索产品的哪些方面,以及在每个方面施加哪些可能的变化。 这问题不像看上去的那样简单。首先,这个效果的定义,含义可就丰富了。淘宝搜索首先要考虑搜 索结果与用户 query 之间的相关性;除了相关性要求之外,对于淘宝搜索而言,是不是能有效的促 进成交,也是要重点考虑的效果之一;此外,如果在搜索结果中,大量存在假冒伪劣产品,那这个 效果也是要打折扣的;另外,如果大部分的搜索结果里,都是那些大卖家在抛头露面,中小卖家没 有展现机会,对于淘宝生态圈的长期发展也是不利的。因此,淘宝搜索所考虑的效果问题要比一般 意义上的搜索引擎更加复杂。其次,搜索产品的哪些方面可以做改动,如果要一一列举就太多了。 事实上,搜索产品的任何一个地方的不完善,都有可能降低搜索产品的整体效果。笔者试着将淘宝 搜索产品的可变化因素整理成一个图,希望各位看官能有一个感性的认知。 图2. 淘宝搜索产品的可变化因素 3 、分桶测试 (Bucket Testing, BTS) 诸位看官可能已经意识到了,如何优化一个搜索产品,实际情况应该比我上面说的更加复杂,这真 是一个坏消息;不过我们也有一个好消息,因为对于这个问题的答案,业界已经有答案了,这就是 分桶测试 (bucket testing) ,简称 BT S 。 所谓的分桶测试,是让不同的用户在访问特定的互联网产品的时候,由系统来决定用户的分组号( 我们称为 bucket id ),然后根据分组号,令用户看到的是不同的产品版本,用户在不同版本产品下 的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,最后 就形成了各版本之间孰优孰劣的结论。 3.1 A/B 测试 (A/B Testing) 分桶测试的最简单形式,称为 A/B testing 。即设定一个基准桶,再设定一个或以上的测试桶。然后 考察测试桶与基准桶之间在各项指标上的差异,最后确定测试桶的效果。这种方法论,很容易在现 实生活中找到影子。其实,改革初期建立的深圳特区,就是一场伟大的 A/B testing ,基准桶就是中 国内地,测试桶就是深圳,当时各自的用户量是 9亿 vs 30 万(以当时的人口计算)。对于 A/B testing 而言,测试桶的用户量、流量都不会太大,这是为了确保 BT S 万一失败,对于整体系统的影 响尽量小。当然,测试桶的用户量、流量也不能太少,否则测试效果容易受到未知因素的干扰,而 变得不稳定。对于 A/B testing 而言,判断测试组与基准组孰优孰劣非常简单,只要将二者的指标进 行对比即可。但是,如果版本中包含多个因素,那么确定每个因素的贡献,就不好评估了。这就 好比,我们不能仅仅根据内地与深圳的 GDP 差异,就能断定是因为当时良好的投资环境,还是地理 因素,或其它什么因素,是导致了深圳当时成功的主要因素。所以,利用

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档