协同过滤算法研究综述.docVIP

下载本文档

384
0
约4.62千字
约 9页
2016-11-23 发布于北京
举报
版权申诉

协同过滤算法研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

协同过滤算法研究综述.doc

协同过滤算法研究综述　　摘要本文在介绍传统协同过滤算法的基础上，分析其存在的一些弊端，文章着重介绍了协同过滤算法的研究情况，目的是为协同过滤算法改进提供引导作用。　　关键字协同过滤；个性化推荐；稀疏性　　中图分类号TP39 文献标识码A 文章编号 1674-6708（2013）97-0232-02 　　0引言　　随着网络和电子商务的迅猛发展，用户可以在网上随意寻找自己感兴趣的商品，但随着信息爆炸式增长，用户在这过程中浪费了很多时间，个性化推荐系统对电子商务网站的业绩有很深的影响，其主要作用表现在以下几方面：可以把随意浏览网站的潜在客户转变为实际购买者；提升电子商务网站交叉销售能力；提升客户对网站的忠诚度。其中协同过滤技术是目前运用最广泛的个性化推荐技术。　　1协同过滤算法　　协同过滤技术是通过收集整理过去用户产生的数据来寻找邻居用户，其基本原理是根据相似用户的兴趣来推荐当前用户没有参与但是很有可能会感兴趣的项目，所基于的假设是如果两个用户兴趣类似，那么很有可能当前用户会喜欢另一个用户所喜欢的项目。协同过滤推荐技术分为3个阶段：评分数据表示；最近邻居形成；推荐项目集产生　　1）评分数据表示：将用户对于项目的评分收集整理后描述成一个的用户-项评分矩阵，其中m表述用户数，n表式项目数。矩阵中元素表述用户对项目的评分；　　2）最近邻居形成：指根据项目评分矩阵来发现目标用户的最近邻居。协同过滤技术是通过计算用户之间的相似性来找到目标用户的最近邻，所以算法的关键就在于如何准确找到目标用户的最近邻。常用的用户之间的相似度算法有Pearson 相关系数和余弦相似性；　　3）推荐项目集产生：目标用户的最近邻居集产生后，可以得出目标用户对未评分项的预测分，将分值按照高低排列，产生TOP-N的推荐项目集合；　　这就导致了协同过滤技术过分依赖于用户评分，但目前电子商务网站的用户和商品数量一直在上升，同时用户对商品项的评分却非常稀少，通常在1%以下，使得用户-项目评分矩阵过于稀疏，导致个性化推荐质量下降：　　1）评分矩阵稀疏使得寻找最近邻的准确度降低；　　2）冷启动（cold-start）问题，此问题是稀疏性的极端情况，指当新用户或新项目进入到推荐系统中时，由于没有历史数据，导致无法产生推荐集。　　针对评分矩阵稀疏性问题许多研究人员对协同过滤算法提出了改进，本文系统的归纳和分析了各算法的研究情况，同时为协同过滤算法提供了几点研究方向。　　2改进的协同过滤算法综述　　2.1 结合项目相似性和时间函数的协同过滤算法　　刘芳先等分析传统协同过滤算法的局限于以下三点：　　1）传统算法对于用户之间的相似度是通过两用户共同给予的项目评分来计算的，却没有考虑项目是否相关，如一用户对于某书籍的兴趣可能跟他看过的书有关，而跟他评价过的服装没关系；2）随着时间变化用户的兴趣也会变化的，这点传统算法却没有考虑到；3）传统的协同过滤算法在计算项目间相似性，没能将项目特征考虑在内，导致相似性度量不够准确。　　在此基础上刘芳先提出来改进算法，其主要思想是将项目的相关性引入到用户相似性的计算公式中，同时在预测新目标项的得分时引入了时间加权函数，时间加权函数能反映出用户对最近点击的项目兴趣较大，新数据对于预测得分影响大，而旧数据体现的是用户之前的兴趣，所以在预测上占权重较小。　　这种改进算法在计算用户相似性的时候引入项目相似度，这样可以在一定程度上减少不相关的项目对于推荐结果的影响，同时将时间函数引入了预测得分的公式中，一定程度上反映出随用户趣变化得到推荐集也不同。但是这算法依然对用户-项目评分矩阵依赖性太大，不利于解决数据稀疏性问题。　　刘勇在分析了计算项目相似度时碰到的问题：当两项目只有很少用户给予评分，同时给予评分的用户所关注的项目特征可能不是目标用户所关注的特征，这会导致推荐质量下降。基于这类问题，刘勇提出了改进的相似度计算公式：　　Mutual_num表示对于项目i、j都评分的用户数目，item_num表示对项目i，j中任何一个有评分的用户集合数目。　　2.2降维处理　　文献[7] 为了降低项目评分矩阵的稀疏性，提升推荐精度，提出了一种基于主成分降维技术和K-means聚类的混合协同过滤新算法。算法先对用户-项目矩阵进行缺失值填充，然后运用主成分分析技术提取主成分因子，在降低矩阵的维数同时保证大部分信息没有损失，在降维后的向量空间上进行K-m eans聚类，找到目标用户的最近邻，最后得到目标用户对于未评分项目的预测值，从而产生推荐集。该算法在一定程度上缓解超高维空间寻找最近邻问题。　　文献[8]提出了基于项目聚类的协同过滤，算法主要思想是结合项目评分与项目属性的项目相