《基于项目的协同过滤算法分析案例》2900字.docxVIP

下载本文档

1
0
约3.14千字
约 5页
2025-07-12 发布于湖北
举报
版权申诉

《基于项目的协同过滤算法分析案例》2900字.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于项目的协同过滤算法分析案例

基于项目的协同过滤推荐算法的最根本出发点有：

①所有项目的兴趣信息来自不一样的用户给项目的分数。

②某种程度上，项目的特征可以反映出它们之间存在的相似性。

③具有同样特性的项目，会从用户那里获得同样的评价。

基于项目的协调滤波算法的基本想法是根据项目用户的分数来计算项目之间的相似性，并找到与目标项目有特定相似性的项目集，然后根据目标用户的得分预测目标项目的得分。最后，在目标用户未得分的项目中，推荐目标用户拥有最高预测分数的项目。

与基于用户的协调滤波算法一样，也可以将基于项目的协调滤波算法分成3个步骤。第一，数据预处理。第二，找出最近邻居组合。第三，对项目的评价分值与推荐后的结果作出预测。由于基于项目的协调滤波方法和基于用户的协调滤波方法的数据源是用户项目得分矩阵，所以两种方法的数据初始化步骤完全相同。因此，基于项目协调滤波法，项目分数的预测，推荐结果的生成，以最近制作邻组的2个阶段为中心进行介绍。

找出最近邻居用户集。此方法和基于用户的协调过滤方法一样，基于项目的协调过滤方法的重要步骤是计算项目之间的相似性，选择目标项目中最类似的项目组。有以下几种测量项目之间相似性的方法：

①余弦相似度法：

m维用户空间的项目的矢量表示可以视为项目的得分。各项目间的相似性也可通过矢量之间的余弦角来表示。角度越小，相似性越高。不妨可设向量，它俩代表项目i，项目j都在m维用户空间上给出的评价分数。那么我们把项目i，项目j它俩之间的相似性sim（i，j）的算法公式表示为：

②修正的余弦相似度法

当使用余弦类似度度量来计算项目之间的类似度时，不考虑不同用户的差异。该缺陷可以通过从分数中减去对应用户的平均分数来克服。不妨设：把给项目i以及项目J都有评分的用户数据集合，Ui以及Uj它俩代表给项目i以及项目J作出评分过后的用户数据集合，那么项目i以及项目J它俩之间的相似性sim（i，j）的算法公式可以为：

以上公式中的，它俩代表的是用户u给项目1以及项目J的评分，代表用户u在一切项目空间上所有的平均评分值。

③皮尔森Pearson相关系数法

不妨设把Uij作为项目i以及项目J都有评价分数的用户数据集合，那么项目i以及项目J它俩间的相似性sim（i，j）可以表示为：

上述公式中的它俩代表的是用户u给项目i与项目J作出的评价分数值，它俩分别代表项目i与项目j在Uij上用户作出的平均评价分数，那么我们可以表示为：

在计算各项目之间存在的相似性以后，接着使用特定的使用一些规则从项目邻居列表i中选择最相似的项目集。选择最近的项目集的数量对推荐的品质有很大的影响。有两种主要方法来确定最近的项目集的数量：一是设定阈值，取与目标项目相似性最接近的项目集比阈值大的项目；二是设定最近的项目K的数量选择与目标项目最相似的第一个K项目作为最新的项目组。

对n维项目空间中存在的任何项目i，通过项目类似度测量来计算k的最类似项目。Deshpande和Karypis指出K的值应该在10和30之间，即10K30。如果有与目标项目I的类似性大于0的K个品种，则作为最近的邻居组，仅选择与目标项目I的正相似项目。这降低了计算精度。Karypis和Deshpande也指出，单纯增加K值是无法大大提高结果的正确性的，而且更小、合适的价值不仅能改善推荐的品质，还能加速计算。

产生推荐。再可依据目标用户U的目标项目i的k个邻接项目的得分，预测用户U的项目I的得分，根据可能的推荐项目的预测得分结果，选择最高的预测得分值的项目向用户推荐。

不妨设把IU当作目标用户u给出评价分数过后的项目集合，作为候选的推荐项目组合集C当作任意项目JE加入，和K个相似度最高的项目的全部集合紧接着把Cu中之前出现在IU的所以项目都进行删除。然后，对任何还没被推荐项目，再把项目i的最将近项目集设为IN。那么，IN（u）代表项目1中相似项目中顾客作出评价分数过后的项目集合，那么我们把目标用户u给项目1作出的评价分数p公式表示为：

上述公式中的是项目J在所有顾客空间U上的所有评价分数，那么可表示为：

在预测目标用户的得分和所有可能推荐的项目后，他们可以按照特定规则向目标用户推荐设置项目。一种方法是，推荐给用户的结果是以最高评价分数选出最上面的N个项目（通常N在1-20之间，n=10是最常见的）。另一种是，预测得分推荐给用户比特定得分值大的结果。两种推荐方法取决于特定的应用程序要求。

基于项目的协调过滤波算法本质上是基于内容的推荐技术的一种。它会建议使用项目之间的得分功能，找出当前用户购买项目的类似项目。基于项目的协调滤波算法解决了基于用户的协调过滤波中的稀疏性问题。Sarwar和Deshpande等[33-34]证明了基于项目的协调过滤波方法在推荐性能和质量方面比基于用户的协调滤波方法优越。与