- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
019|SIGIR2018论文精读:偏差和“流行度”之间的关系
2018-07-20洪亮劼来自北京
《AI技术内参》
2018年的SIGIR(国际信息检索研究与发展大会)于7月8日~12日在美国密歇根州的安娜
堡举行。从今天开始,我将精选几篇大会上最有价值的论文,和你一起来读。
我先简单介绍一下这个大会。SIGIR从1978年开始举办,有40年的历史,是信息检索和搜
索领域的顶级会议。SIGIR2018,全称是The41stInternationalACMSIGIRConference
onResearchandDevelopmentinInformationRetrieval。
从最初举办开始,这个会议就成为了信息检索领域,特别是搜索技术和推荐技术方面的权威学
术会议。会议的内容往往包含了搜索、推荐、广告、信息提取、互联网数据挖掘等诸多领域的
优秀论文,每年都吸引着来自世界各地的学者和工程师参会,来分享他们最新的研究成果。
今天,我们首先来看一看今年的最佳论文,标题是《推荐系统中流行度有效性的概率分析》
(ShouldIFollowtheCrowd?AProbabilisticAnalysisoftheEffectivenessof
PopularityinRecommenderSystems)。
这篇论文一共有两位作者,均来自马德里自治大学(UniversidadAutónomade
Madrid)。第一作者罗西奥·卡纳马雷斯(RocioCañamares)已经发表了好几篇相关主题的
论文,第二作者帕布罗·卡斯蒂罗斯(PabloCastells)是马德里自治大学、甚至是整个欧洲的
信息检索学术权威。论文有超过5千次的引用。
论文的主要贡献
想要理解清楚这篇论文的主要贡献,我们首先要从推荐系统,或者是从更大的方向上,来看所
有信息检索系统都存在的一个核心问题,那就是“偏差”(Bias)。偏差会带来一系列问题。
这对推荐系统甚至信息检索系统的建模和评价都带来了巨大的挑战。
那么,为什么信息检索系统会有偏差呢?
我这里举一个简单的例子来说明。假设我们有两个物品和很多用户。对于每一个用户来说,系
统都按照随机的顺序,分别给用户展示这两个物品,并且询问用户是否喜欢。
在这样的假设里,顺序是随机的,因此对于同一个用户来说,用户是否喜欢某一个商品,就完
全是取决于这个物品本身的属性。对于所有用户来说,在整体上呈现的用户对这两个物品的喜
好,则完全来自于大家对这两个物品本身的一种评价。那么,我们可以看到这里面没有任何的
偏差。
然而,只要这个场景稍微有一些改变,就很容易引入各种偏差。比如,我们有超过一万件物
品。尽管我们还是随机地展示给用户,但用户可能在看过一定数量的物品之后就慢慢厌倦了,
那么,用户对于物品的喜好判断或许就会受到厌倦的影响,甚至,用户还很有可能直接放弃查
看后面的物品。
还有很多相似的情况,比如我们不是把每个商品逐一展示给用户看,而是提供一个列表。那
么,用户很有可能会以为这个列表有一定的顺序,比如在列表排名上方的物品可能是比较重要
的。有研究表明,在有列表的情况下,用户很可能会按照列表的顺序提供某种喜好判断。很明
显,在这样的情况下,用户的喜好判断就受到了这个列表顺序的干扰。
上面我们提到的都是“表现偏差”(PresentationBias)。除此以外,一个信息系统其实还
有很多类型的偏差,比如系统性偏差:一个新闻系统,只给用户推荐娱乐新闻,而不给用户看
时政新闻,在这样的情况下,用户表现出来的喜好性就是有偏差的,因为系统没有给用户表达
对时政新闻喜好的可能性。
信息检索和推荐系统的学者其实很早就意识到了偏差对于建模的影响。不管是我们这里提到的
表现偏差还是系统性偏差,如果我们直接利用用户和系统交互产生的数据,那么训练出来的模
型以及我们采用的衡量模型的办法也会有偏差,那我们得出的结论有可能就是不精准的。
这篇论文就是希望能够系统性地讨论偏差在推荐系统中所带来的问题。具体来说,这篇论文主
要是探讨偏差和“流行度”(Popularity)之间的关系。
这里描述的是这样一种情况:有一些物品很有可能曾经给很多人推荐过,或者同时还被很多人
喜欢过或者评价过,那么,这种流行度高的物品会不会对推荐结果的评价带来意想不到的偏差
呢?
在过去的研究中,大家只是对这种流行度高的物品有一种直观上的怀疑,认为如果一个推荐系
统仅仅能够推荐流行的物品,那肯定是有偏差的。但之前的很多工作并没有定量地去解释这里
面偏差和评价之间的关
您可能关注的文档
- 出口商品技术指南-木制品(1).pdf
- 002-精读2017年KDD最佳研究论文【萌萌家】(1).pdf
- 003-精读2017年KDD最佳应用数据科学论文【萌萌家】.pdf
- 007-精读2017年ICCV最佳研究论文【萌萌家】.pdf
- 013-WSDM2018论文精读:看谷歌团队如何做位置偏差估计【萌萌家】.pdf
- 014-WSDM2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息【萌萌家】.pdf
- 025-ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉【萌萌家】.pdf
- 026-ICML2018论文精读:聊一聊机器学习算法的“公平性”问题【萌萌家】.pdf
- 027-ICML2018论文精读:优化目标函数的时候,有可能放大了“不公平”?【萌萌家】.pdf
- 031-经典搜索核心算法:TF-IDF及其变种【萌萌家】.pdf
文档评论(0)