网站大量收购独家精品文档,联系QQ:2885784924

058-简单推荐模型之一:基于流行度的推荐模型【萌萌家】.pdf

058-简单推荐模型之一:基于流行度的推荐模型【萌萌家】.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

058|简单推荐模型之一:基于流行度的推荐模型

2018-02-26洪亮劼来自北京

《AI技术内参》

今天,我们正式进入专栏的另一个比较大的模块,那就是推荐系统。之前我们详细且全面地介

绍了搜索系统的各个组成部分。在接下来的几周时间里,我们一起来看推荐系统的技术要点又

有哪些。

我们还是从简单推荐系统聊起,由易到难,逐步为你讲述一些经典的推荐模型。

推荐系统目前已经深入到了互联网的各类产品中。不管是到电子商务网站购物,还是到新闻阅

读网站获取信息,甚至是在出行的时候希望听到不同的音乐,不同种类的推荐系统都在我们的

生活中发挥着举足轻重的作用。

那么,搭建一个最简单的推荐系统,应该如何入手呢?今天我们就来聊一个最基本的推荐模

型:基于流行度的推荐模型。

最简单的流行度估计

什么是基于流行度(Popularity-based)?通俗地说,就是什么内容吸引用户,就给用户推荐

什么内容。

这里面其实有一个隐含的假设,那就是物品本身的质量好坏和流行度有一定的正比关系。什么

意思呢?就是说好的东西,关注的人自然就多,自然就会有更多的谈论。当然,这是一个主观

的假设,并不是所有质量高的物品都会有很高的流行度。然而,在不需要过多其他信息和假设

的情况下,流行度可以算是衡量物品质量好坏的一个最简单的测度。

那么,如果我们能够在每一个时间点上准确地估计到一个物品的流行度,就只需要按照流行度

的数值从高到低排序显示所有的物品就可以了。

然而,这里牵涉到一个问题,那就是如何判断一个物品在任何时间点上的流行度呢?有两个重

要的因素影响着物品流行度的估计,那就是时间和位置。

我们先来说一下时间因素。很显然,用户访问每一个应用或者服务都有一定的规律,这种规律

导致每一个应用的流量规律也不一样。比如,人们可能更倾向于在早上或者傍晚打开新闻网

站,看一看一天都发生了什么事情。因此,任何文章投放到这两个时段自然就会有比较高的关

注度。这并不代表这些文章就要好于其他的文章,可能仅仅是由于时间的关系。因此,我们在

对流行度建模的时候就需要考虑时间的因素。

另外一个重要的因素是位置。这个“位置”并不是真正的地理位置,而是在一个服务或者网站

的什么位置显示你的物品。因为用户心理对于不同位置的感受,在很多类型的服务中常常都有

隐含的“位置偏差”(PositionBias)。

这些偏差给我们估计某个物品的流行度带来了很大的困难。比如说,在绝大多数的搜索引擎服

务中,排名第一的物品所受到的关注度很可能大大高于排名第二和之后的物品。因此,一个物

品只要放到第一的位置,关注度自然就会升高。当然,这并不能完全代表这个物品本身的属

性。

因此,我们在估计物品的流行度时就需要考虑上面所说的这两个重要因素。

要解决刚才说的两个问题,我们就不能使用绝对数值来对流行度建模。比如我们使用在单位时

间内点击的数目,购买的数目,或者点赞的数目,都会受到刚才所说的两种偏差的影响。假设

一篇文章在9点到10点这个时段被点击了100次,在10点到11点这个时段被点击了50

次,这并不能代表这个文章在10点到11点这个时段就变得不受欢迎了,很可能是这个时段

的总的用户量比较多。

因此,对于流行度的衡量,我们往往使用的是一个“比值”(Ratio),或者是计算某种“可

能性”(Probability)。也就是说,我们计算在总的用户数是N的情况下,点击了某个文章

的人数。这个比值,取决于不同的含义,如果是点击,往往叫作点击率;如果是购买,叫作购

买率。为了方便讨论,我们在下面的例子中都使用点击率。

然而,点击率本身虽然解决了一部分时间和位置偏差所带来的影响,但是点击率的估计所需要

的数据依然会受到偏差的影响。因此,我们往往希望能够建立无偏差的数据。

关于如何能够无偏差地估计,这是一个研究课题,我们今天不详细展开。不过,有一种比较经

济的方法可以收集没有偏差的数据,那就是把服务的流量分成两个部分。

一个部分,利用现在已有的对物品流行度的估计来显示推荐结果。另外一个部分,则随机显示

物品。这种方法是一种特殊的EE算法(ExploitationExploration),叫“epsilon贪

心”(epsilon-Greedy)。

我们之后还会聊到这个话题。根据这样的方式搜集的数据可以认为是没有位置偏差的。我们从

随机显示物品的这部分流量中去估计流行度,然后在另外一个部分的流量里去显示物品。

如果从数学上对点击率建模,其实可以把一个物品在显示之后是否被点击看成是一个“伯努利

随机变量”,于是对点击率的估计,就变成了对一个伯努利分布参数估计的过程。

文档评论(0)

133****9720 + 关注
实名认证
内容提供者

物业管理师证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

相关文档