推荐系统评价指标选编.pptxVIP

下载本文档

13
0
约 32页
2017-03-24 发布于湖北
举报
版权申诉

推荐系统评价指标选编.pptx

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

推荐系统评价指标综述汇报人：李烽文献来源：朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175. 研究背景 3 信息过载多种推荐算法孰优孰劣研究背景 4 Web2.0时代，每个人既是信息接收者，也是信息创造者。信息数量庞大但质量参差不齐，造成信息过载。信息过载多种推荐算法信息过滤，为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、混合推荐算法。。。孰优孰劣如何有效、客观评价推荐系统的效能，从实验室到实际应用的转换。研究背景评价方法 6 设计在线用户实验，根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试高额成本根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量方便、经济数据集的划分（常用随机划分）与评价指标的选择评价指标 7 准确度指标基于排序加权的指标覆盖率多样性和新颖性准确度指标预测评分的准确度衡量算法预测的评分与用户实际评分的贴近程度思路：计算预测评分和用户真实评分的差异局限：对MAE指标贡献大的往往是那种很难预测准确的低分商品预测评分的准确度 MSE和RMSE指标对每个绝对误差首先做平方运算，所以这两个指标对比较大的绝对误差有了更重的惩罚预测评分的准确度预测评分关联衡量算法预测的评分与用户实际评分之间的相关性最常见的三种相关性指标：Pearson积距相关、Spearman相关、Kendall’s Tau 预测评分关联预测评分关联弱关系排序问题：在实际系统中可能有某用户对两个或者多个商品评分一致的情况。预测评分关联某用户对商品实际评分为：4.4，3.9, 3.8, 3.9, 1.0 推荐系统预测评分为：3.3, 3.1, 3.0, 4.3, 3.1 那么此时，具有严格偏好差别的商品对有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、(3,4) 、(3,5) 、(4,5) 排序相悖的商品对： (1,4)、 (3,5) 排序兼容的商品对： (2,5) 得 NDMP=(2*2+1)/2*9=0.278 预测评分关联 NDMP指标不仅适用于弱关系排序问题还可以用来评价推荐算法在不同数据及上的表现。 PS：这些预测评分关联额性指标都是只关注于预测排序值而不关注于具体的预测评分值，所以它们不适用于那些旨在为用户提供精确预测评分值的系统。分类准确度衡量推荐系统能正确预测用户喜欢或者不喜欢某个商品的能力。适用于那些有明确二分喜好的用户系统，对于非二分喜好系统，需要设定一个阈值来区分用户的喜好。并非衡量系统预测具体评分值的能力，只要是没有影响商品分类的评分偏差都是被允许的。最常用的分类准确度指标：准确率(precision)、召回率(recall)、F1指标和AUC。分类准确度分类准确度分类准确度准确率与召回率容易受到推荐列表长度、评分稀疏性以及喜好阈值的等多方面因素的影响，很多学者不提倡用准确率与召回率来评价系统，特别是只考虑一种指标时偏差极大。准确率和召回率指标往往是负相关的而且依赖于推荐列表长度。一般情况下，随着推荐列表长度的增大，准确率指标会减小而召回率会增大。分类准确度对于一个没有明确二分喜好的系统？推荐的阈值不确定？往往采用AUC指标来衡量推荐效果的准确性。AUC指标表示ROC（receiver operator curve）曲线下的面积，它衡量一个推荐系统能够在多大程度上将用户喜欢的商品与不喜欢的商品区分开来。正如我们在这个ROC曲线的示例图中看到的那样，ROC曲线的横坐标为false positive rate（FPR），纵坐标为true positive rate（TPR）分类准确度经过分析，ROC曲线越接近左上角，该分类器性能越好。AUC的取值范围介于0.5和1之间。分类准确度假如我们已经得到了所有样本的概率输出（属于正样本的概率）。根据每个测试样本属于正样本的概率值从大到小排序。图中共有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率分类准确度从高到低依次将”Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。 AUC指标仅用一个数值就表征了推荐算法的整体表现，而且它涵盖了所有不同推荐列表长度的表现。但是AUC指标没有考虑具体排序位置的影响，导致在ROC曲线面积相同的情况下很难比较算法好坏，所以它的适用范围也受到了一些限制排序准确度基于排序加权的指标基于排序加权的指标目前半衰期效用指标的使用仍然是有很大的