基于条目流行度协同过滤推荐优化算法.docVIP

下载本文档

21
0
约5.44千字
约 13页
2018-06-23 发布于福建
举报
版权申诉

基于条目流行度协同过滤推荐优化算法.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于条目流行度协同过滤推荐优化算法

基于条目流行度协同过滤推荐优化算法　　摘要传统的基于条目（Item-based）的协同过滤算法在推荐系统中占有着举足轻重的作用，本文提出了一种针对该推荐算法的优化方法，抓住条目在时间维度上的评分变化规律，提出基于条目流行度的相似性计算方法，并通过组合其与条目内容的相似性，来改进传统的条目相似性计算方法。使得计算结果更符合实际场景，更适合在运用在实际推荐系统中，实验结果表明，本文提出的算法由于考虑到时间维度的因素，使得计算结果更加准确，并且可以显著的提高推荐精度。　　关键词协同过滤算法；条目相似性；推荐系统　　中图分类号TP31 文献标识码A 文章编号 1674-6708（2014）106-0212-03 　　0引言　　近年来，由于电子商务和互联网的快速发展，推荐系统的作用日益突出，目前，几乎所有的电商网站，多媒体网站，社交网站，如淘宝，豆瓣，当当网，QQ，微博等都已经并且正在开发自己的推荐系统，协同过滤推荐算法是目前电商网站，社交网站推荐系统最为常用的推荐算法。考虑到时间维度，本文提出一种针对基于条目协同过滤算法的优化方法。　　目前最常用的推荐技术主要包括两类协同过滤推荐算法，一种是基于条目的，一种是基于用户的，本文的优化算法主要是基于条目的协同过滤算法，该方法通过计算用户对不同条目的评分的相似性，在对目标条目的评分的预测时，通过评分的相似性找到目标条目的最近邻，然后通过最近邻项目的已知评分对目标条目进行评分估计。　　1现有推荐算法分析　　1.1相似性计算方法　　常见的相似性计算方法包括：余弦相似性，相关相似性和修正的余弦相似性。　　记sim（i，j）表示条目i，j之间的评分相似性，主要采用以下3种方法进行度量：　　Cosine （余弦相似性）　　将用户空间看作m维空间，条目评分可以表示成m维向量，对于还没有用户评分的条目，可以设置该用户对该条目的评分为零，条目之间的相似性可以通过多维向量的夹角的的余弦值来表示。　　假设共有m个用户，则用户对某条目的评分可以表示成m维向量，假设条目i、j的评分分别为向量i、j，那么条目i、j的相似度sim（i，j）为 ???　（1）　　（1）式中分别用到了向量的内积和向量模的乘积。　　Correlation （相关相似性）　　假设对条目i、j有评分的用户可以表示为Uij，那么可以通过皮尔逊相关系数来表示条目i、j之间的相似性sim（i，j）：　　（2）　　其中Rc，i和Rc，j分别代表用户c对条目i、j的评分；Ri和Rj分别代表条目i、j的平均评分。　　Adjustedcosine （修正的余弦相似性）　　由于不同用户对条目的评分可能会参照不同的标准，这样通过余弦相似度计算会使结果不准确，那么可以通过标准化的方法来弥补余弦相似性计算的不足，使用用户c对条目的平均评分Rc替代（2）式中的Ri和Rj，即　　（3）　　在对项目相似性计算方面研究者也提出了一些改进方法。彭玉等提出基于属性改进的相似性计算方法。李聪等提出通过比较条目的类型来计算相似度。但是，这些方法的思路仍然局限在计算相似度的依据，他们单单参照了条目的评分数据，而未参照用户评分时的场景因素，比如时间因素的影响，用户的品味和评分往往会呈现出时间局限性，即在一段时间内用户的品味可以看作基本不变，同时，根据经验，条目（如电影，歌曲）会呈现出一定的时代特征，即条目的流行程度也会呈现出较强的时间局限性，在计算条目的相似性时非常有必要考虑时间因素。但是，传统的基于条目的协同过滤算法并没有考虑到时间因素。　　1.2 Item-based协同过滤算法　　Item-based（基于条目）的协同过滤算法在2001年被提出来。其基本思想是：通过寻找目标条目的相似条目，然后根据这些相似条目的已有评分，来预测目标条目的评分，具体可以选取与目标条目最相似的K个条目，然后通过计算这些条目与目标条目的相似度，以相似度为权重，相似条目的评分作为项，使用加权平均来计算预测评分。将目标项目i的相似条目集合用S（i）表示，|S（i）| =K，则用户u对条目i的预测评分Pu，j。可以通过公式（1）计算：　　（4）　　然而，传统的基于条目的协同过滤算法仍存在许多不足：　　1）没有考虑到项目自身属性的相似性，用户的兴趣往往呈密集性，如果两个项目自身属性很相似，用户对其中一个感兴趣，则可以推荐其另一个；　　2）没有考虑到用户的心理受时间的约束，用户往往在一段时间内对某种项目感兴趣，可能过一段时间，用户的品味会发生变化；　　3）没有考虑到条目流行度受时间的影响，一个条目可能会在一定时间段内流行，在其他时间段不在流行。　　基于上述分析，本文提出了一种针对基于条