协同过滤推荐算法的研究综述.docVIP

下载本文档

749
0
约7.31千字
约 12页
2018-10-14 发布于福建
举报
版权申诉

协同过滤推荐算法的研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

协同过滤推荐算法的研究综述

协同过滤推荐算法的研究综述　　【摘要】协同过滤推荐算法是目前在推荐系统中应用最成功和广泛的技术之一。本文详细介绍了协同过滤推荐算法的分类和度量指标。同时，分析了协同过滤推荐算法中的问题以及相应的解决办法。最后阐述了协同过滤推荐系统中仍需解决的问题和未来可能的发展方向。　　【关键词】推荐系统协同过滤推荐算法　　一、引言　　随着信息技术的迅速发展，互联网在为用户提供越来越多信息的同时，其规模也变得越来越庞大，其结构也变得越来越复杂。对于用户来说，如何及时有效地在网络上的海量信息中发现自己所需要的信息已经变得相当困难。推荐系统就是解决这一问题的最有效的途径。推荐系统现已经广泛地应用于很多领域，如电子商务，电影，音乐，社交网络等等。在推荐系统中应用最成功和广泛的是协同过滤推荐算法，对该算法的研究已经呈现了大量的研究和应用成果。　　二、协同过滤推荐算法的分类　　在协同过滤推荐算法中，用户评分数据中包含m个用户的集合U={ul，u2，……，um}和n个项目的集合I={il，12，……，in。用户对项目的评分数据可以采用用户一项目评分矩阵来表示。根据推荐产生过程和采用技术的不同，通常可以将协同过滤推荐算法分为两类：基于记忆和基于模型的算法[1]。　　2.1 基于记忆的协同过滤推荐算法　　基于记忆的协同过滤推荐算法类似于机器学习中的懒惰学习算法，是直接对整个用户一项目评分矩阵进行计算，找到相似的用户或项目来产生推荐结果。根据相似性计算的对象的不同，又可以分为基于用户的算法和基于项目的算法。基于用户的协同过滤算法的主要思想是利用兴趣偏好相似的用户的评分来产生推荐列表[2-3]。而基于项目的算法，则利用相似项目进行推荐。根据这类算法的基本原理，可以把算法的实施分为四个阶段：（1）相似性计算。常用的度量用户或者项目的相似性的方法主要包括如下三种：余弦相似性，皮尔逊相关系数和约束的皮尔逊相关系数[4]。此外，项目的相似性还可以基于条件概率来计算[5]。（2）选择相似近邻。在基于用户的算法中，通常采用K最近邻方法[6]和基于阈值的方法[7]为目标用户选择兴趣偏好最相似的邻居。而基于项目的算法，则选择所有相似项目作为近邻。（3）预测评分。这个环节主要根据相似用户或者项目的评分，来预测目标用户对目标项目的评分。（4）推荐。常用的推荐方法是全局排序方法，即选择预测评分最高的前N个项目，即top-N推荐方法。　　2.2 基于模型的协同过滤算法　　随着用户和项目的数量规模不断扩大，评分数据越来越高维，传统的基于记忆的协同过滤算法在计算量上也面临可扩展的问题，而且难以得到好的实时推荐效果。为了解决这些问题，一些学者提出了基于模型的推荐算法。这一类的算法首先利用统计技术和机器学习技术对用户一项目的评分矩阵进行训练，通过训练建立一个模型，然后再基于这个模型为目标用户进行预测，进而产生推荐结果。在基于模型的协同过滤推荐算法中主要采用的技术包括贝叶斯网络[8]，聚类[9-10]，降维技术[11-12]，潜在语义[13-14]，本体模型[15]和云模型[16]等等。　　三、协同过滤推荐算法的评估指标　　根据现阶段推荐系统的任务，可以主要把对推荐算法的评估指标分成3类：预测准确度和分类准确度。　　3.1预测准确度　　预测准确度主要用来度量算法预测的评分与真实评分之间的偏差。在那些要给用户显式预测评分值的场景中，预测准确度尤其重要。在协同过滤推荐算法中最常用的预测准确度指标是平均绝对误差[17]，该指标主要用来度量预测的评分和真实的评分之间直接的数值差距。这个值越小，表明预测越准确，推荐质量越高。该指标因其计算简单、通俗易懂得到了广泛的应用。不过这个指标也有一定的局限性，因为对这个指标贡献比较大的往往是那种很难预测准确的低分项目[1]。　　3.2分类准确度　　推荐系统的主要任务就是向用户推荐喜欢的项目，也可以看作一个分类问题。分类准确度指标就是衡量推荐系统是否能够正确预测用户喜欢或者不喜欢某个项目的能力[18]。常用的度量分类性能的指标是查准率和查全率。查准率和查全率指标往往是负相关的而且依赖于推荐列表长度。为了同时考察查准率和查全率，Pazzani等把二者综合考虑提出了Fl指标[19]。Fl指标的值越大，说明推荐的准确度越高。　　四、协同过滤推荐算法面临的问题　　随着网络的发展，用户和项目的数量迅猛增加，而网络资源和站点结构也变得越来越复杂，协同过滤推荐算法在实际的推荐系统的应用中，仍然面临着以下问题：　　4.1稀疏性问题　　现在的推荐系统中，数据规模都非常庞大，两个用户之间选择的重叠非常少。例如在淘宝上的商品数量有近10亿，平均而言一个用户很少能对超过1000件商品进行评分，数据严重稀疏。评分