- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户投票的排名算法(六)贝叶斯平均
基于用户投票的排名算法(六):贝叶斯平均
作者: 阮一峰
上一篇介绍了威尔逊区间,它解决了投票人数过少、导致结果不可信的问题。
举例来说,如果只有2个人投票,威尔逊区间的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。
【以IMDB为例,它是世界最大的电影数据库,观众可以对每部电影投票,最低为1分,最高为10分。】
【系统根据投票结果,计算出每部电影的平均得分。然后,再根据平均得分,排出最受欢迎的前250名的电影。】
这里就有一个问题:热门电影与冷门电影的平均得分,是否真的可比?举例来说,一部好莱坞大片有10000个观众投票,一部小成本的文艺片只有100个观众投票。这两者的投票结果,怎么比较?如果使用威尔逊区间,后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?
一个合理的思路是,如果要比较两部电影的好坏,至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少,那么应该设法为它增加一些观众。
在排名页面的底部,IMDB给出了它的计算方法。
- WR, 加权得分(weighted rating)。- R,该电影的用户投票的平均得分(Rating)。- v,该电影的投票人数(votes)。- m,排名前250名的电影的最低投票数(现在为3000)。- C, 所有电影的平均得分(现在为6.9)。
仔细研究这个公式,你会发现,IMDB为每部电影增加了3000张选票,并且这些选票的评分都为6.9。这样做的原因是,假设所有电影都至少有3000张选票,那么就都具备了进入前250名的评选条件;然后假设这3000张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。
这样做拉近了不同电影之间投票人数的差异,使得投票人数较少的电影也有可能排名前列。
把这个公式写成更一般的形式:
- C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。- n,该项目的现有投票人数。- x,该项目的每张选票的值。- m,总体平均分,即整个网站所有选票的算术平均值。
这种算法被称为贝叶斯平均(Bayesian average)。因为某种程度上,它借鉴了贝叶斯推断(Bayesian inference)的思想:既然不知道投票结果,那就先估计一个值,然后不断用新的信息修正,使得它越来越接近正确的值。
在这个公式中,m(总体平均分)是先验概率,每一次新的投票都是一个调整因子,使总体平均分不断向该项目的真实投票结果靠近。投票人数越多,该项目的贝叶斯平均就越接近算术平均,对排名的影响就越小。
因此,这种方法可以给一些投票人数较少的项目,以相对公平的排名。
=================================================
贝叶斯平均也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有10个观众评分,5个为五星,5个为一星;电影B也有10个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。
解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从多项分布(Multinomial distribution),就可以结合贝叶斯定理,估计该分布的期望值。由于这涉及复杂的统计学知识,这里就不深入了,感兴趣的朋友可以继续阅读William Morgan的How to rank products based on user input。
(完)
您可能关注的文档
最近下载
- 2023年上海第二工业大学网络工程专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
- 2023年上海第二工业大学计算机应用技术专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
- ODCC 阿里巴巴 浸没液冷数中心规范.pdf VIP
- 青少年无人机课程:开启天空探索之旅.pptx VIP
- 一种偏振光红外头痛治疗仪.pdf VIP
- 医疗技术人员能力评价表(内科).docx VIP
- 物性表_索尔维_PPSU Radel R-5500.pdf VIP
- 23、提高模板工程安装一次验收合格率.docx VIP
- 华东理工大学-食品科学与工程 实验二抗氧化剂实验方案苹果汁.docx VIP
- 《中文版Cinema 4D三维建模与视觉设计案例教程[R25]》项目1Cinema 4D基础知识 .pptx VIP
文档评论(0)