协同过滤推荐系统的研究综述.docVIP

下载本文档

12
0
约3.67千字
约 9页
2018-10-14 发布于福建
举报
版权申诉

协同过滤推荐系统的研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

协同过滤推荐系统的研究综述

协同过滤推荐系统的研究综述　　摘要：　　在大数据时代，网络用户很难从海量信息当中找到自己需求的信息，推荐系统可以很好地解决信息过载问题，协同过滤推荐是应用最广泛和最成功的推荐技术。对协同过滤推荐系统进行分类，描述协同过滤推荐系统的主要算法和基本思想，介绍推荐系统的评价指标，总结推荐系统仍然存在的问题。　　关键词：　　协同过滤：推荐系统；信息过载　　0 引言　　随着网络技术的发展，呈现在人们眼前的信息越来越多，使得人们无法从海量的信息当中找到自己需求的信息。推荐系统能够较好地解决此问题，很多电子商务平台，都使用了推荐技术，例如Amazon、eBay、淘宝、京东等。在推荐系统中，协同过滤（CollaborativeFiltering，CF）是使用最广泛的推荐技术。CF基于这样一种假设：用户在过去和未来有着相同的兴趣偏好。虽然与现实有所差别，但在推荐系统的实际应用中，仍然发挥着重要的作用，能够达到很好的推荐效果。　　1 推荐系统的任务　　在推荐系统中，使用较多的数据是用户评分数据和社交网络数据。用户评分矩阵是用户对购买过的项目的评分数据，如表格1所示，u1-U7表示用户，i1～i4表示项目.表格里的数字代表用户对项目的评分值。　　根据用户评分矩阵或用户社交网络数据，推荐系统提供一个用户可能感兴趣的推荐项目列表，或预测用户对项目的喜好程度，从而帮助用户从繁多的项目集合中找到自己需要的项目，如图1所示。最前面一部分表示各种数据，中间那部分表示推荐系统引擎，其中包括各种算法，最后一部分表示，根据前面的数据，通过推荐算法计算所得到的推荐结果。　　2 协同过滤推荐系统　　协同过滤推荐算法可以分为基于启发式的协同过滤推荐算法和基于模型的协同过滤推荐算法。　　2.1 基于启发式的协同过滤推荐算法　　最近邻（Nearest Neighbor）算法是最经典的基于启发式的协同过滤推荐算法。最近邻算法主要包括基于用户的协同过滤（User-based Collaborative Filtering）和基于项目的协同过滤（Item-based Collaborative Filter-ing）。　　基于用户的协同过滤推荐算法通过计算用户之间的相似度，然后找到用户的相似用户，用相似用户的评分和相似度来预测用户对某个项目的评分。相似度的计算方法有很多，例如余弦相似性、修正的余弦相似性、Pearson相关系数、欧氏距离、Tanomi等。改进的相似性度量方法有提出新的相似性函数和使用相似性传播改进相似性函数。　　基于项目的协同过滤算法思路与基于用户的协同过滤算法类似，首先计算项目之间的相似度，然后找到项目的相似项目，再用项目之间的相似度来预测用户对项目的评分。　　2.2 基于模型的协同过滤推荐算法　　基于模型的协同过滤推荐主要是建立模型.通过训练数据来估计模型当中的一些参数，然后利用模型来预测用户对项目的评分。常用的方法有潜在因子模型、聚类、贝叶斯模型、上下文感知模型、信任感知模型。　　SVD （Singular Value Decomposition）是潜在因子模型当中使用比较广泛的一种矩阵分解算法，由于用户评分矩阵R中存在大量缺失值，所以，早期的SVD模型不能直接使用，我们需要先对用户评分矩阵进行预测填充，然后对填充后的矩阵R进行分解.如公式（l）。　　其中，Skxk是一个对角阵，对角线上的值是奇异值。为了降低计算复杂度，只保留F个最大的奇异值.然后得到R的相似矩阵R，如公式（2）。　　这个时候，我们就可以对原始用户评分矩阵R中的缺失值进行预测。　　虽然只保留了F个最大的奇异值，但计算的复杂度仍然很高。于是，Zhou等人提出了一种新的矩阵分解方法。该矩阵分解的方法是找到一个用户特征矩阵U和一个项目特征矩阵M，让这两个矩阵的内积尽量逼近于原始矩阵R，如公式（3）。　　其中，ui表示用户特征矩阵U的第i列，mj表示一个项目特征矩阵M的第j列。A为正规化参数。　　对于求解矩阵U和我们可以使用以下公式通过迭代最小二乘方法进行计算。　　其中，IU代表用户i评分过的项目索引集合。代表矩阵M的子矩阵，由矩阵M中的IU列组成。E代表单位矩阵。代表行向量，由矩阵R的第i行中IU列组成。代表集合IU的基数。IM代表对项目i评分过的用户索引集合。代表矩阵U的子矩阵，由矩阵U中的IM列组成。代表列向量，由矩阵R的第i列中IM行组成。代表集合IM的基数。　　PMF（Probabilistic Matrix Factorization）算法是在新的SVD上增加了概率分布，其假设用户和物品的隐式特征向量服从高斯先验分布。与潜在因子模型相关的有pLSA、LDA、FM（Factor