- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于条目流行度协同过滤推荐优化算法
基于条目流行度协同过滤推荐优化算法
摘 要 传统的基于条目(Item-based)的协同过滤算法在推荐系统中占有着举足轻重的作用,本文提出了一种针对该推荐算法的优化方法,抓住条目在时间维度上的评分变化规律,提出基于条目流行度的相似性计算方法,并通过组合其与条目内容的相似性,来改进传统的条目相似性计算方法。使得计算结果更符合实际场景,更适合在运用在实际推荐系统中,实验结果表明,本文提出的算法由于考虑到时间维度的因素,使得计算结果更加准确,并且可以显著的提高推荐精度。
关键词 协同过滤算法;条目相似性;推荐系统
中图分类号TP31 文献标识码A 文章编号 1674-6708(2014)106-0212-03
0引言
近年来,由于电子商务和互联网的快速发展,推荐系统的作用日益突出,目前,几乎所有的电商网站,多媒体网站,社交网站,如淘宝,豆瓣,当当网,QQ,微博等都已经并且正在开发自己的推荐系统,协同过滤推荐算法是目前电商网站,社交网站推荐系统最为常用的推荐算法。考虑到时间维度,本文提出一种针对基于条目协同过滤算法的优化方法。
目前最常用的推荐技术主要包括两类协同过滤推荐算法,一种是基于条目的,一种是基于用户的,本文的优化算法主要是基于条目的协同过滤算法,该方法通过计算用户对不同条目的评分的相似性,在对目标条目的评分的预测时,通过评分的相似性找到目标条目的最近邻,然后通过最近邻项目的已知评分对目标条目进行评分估计。
1现有推荐算法分析
1.1相似性计算方法
常见的相似性计算方法包括:余弦相似性, 相关相似性和修正的余弦相似性。
记sim(i,j)表示条目i,j之间的评分相似性,主要采用以下3种方法进行度量:
Cosine (余弦相似性)
将用户空间看作m维空间,条目评分可以表示成m维向量,对于还没有用户评分的条目,可以设置该用户对该条目的评分为零,条目之间的相似性可以通过多维向量的夹角的的余弦值来表示。
假设共有m个用户,则用户对某条目的评分可以表示成m维向量,假设条目i、j的评分分别为向量i、j,那么条目i、j的相似度sim(i,j)为
??? (1)
(1)式中分别用到了向量的内积和向量模的乘积。
Correlation (相关相似性)
假设对条目i、j有评分的用户可以表示为Uij,那么可以通过皮尔逊相关系数来表示条目i、j之间的相似性sim(i,j):
(2)
其中Rc,i和Rc,j分别代表用户c对条目i、j的评分;Ri和Rj分别代表条目i、j的平均评分。
Adjustedcosine (修正的余弦相似性)
由于不同用户对条目的评分可能会参照不同的标准,这样通过余弦相似度计算会使结果不准确,那么可以通过标准化的方法来弥补余弦相似性计算的不足,使用用户c对条目的平均评分Rc替代(2)式中的Ri和Rj,即
(3)
在对项目相似性计算方面研究者也提出了一些改进方法。彭玉等提出基于属性改进的相似性计算方法。李聪等提出通过比较条目的类型来计算相似度。但是,这些方法的思路仍然局限在计算相似度的依据,他们单单参照了条目的评分数据,而未参照用户评分时的场景因素,比如时间因素的影响,用户的品味和评分往往会呈现出时间局限性,即在一段时间内用户的品味可以看作基本不变,同时,根据经验,条目(如电影,歌曲)会呈现出一定的时代特征,即条目的流行程度也会呈现出较强的时间局限性,在计算条目的相似性时非常有必要考虑时间因素。但是,传统的基于条目的协同过滤算法并没有考虑到时间因素。
1.2 Item-based协同过滤算法
Item-based(基于条目)的协同过滤算法在2001年被提出来。其基本思想是:通过寻找目标条目的相似条目,然后根据这些相似条目的已有评分,来预测目标条目的评分,具体可以选取与目标条目最相似的K个条目,然后通过计算这些条目与目标条目的相似度,以相似度为权重,相似条目的评分作为项,使用加权平均来计算预测评分。将目标项目i的相似条目集合用S(i)表示,|S(i)| =K,则用户u对条目i的预测评分Pu,j。可以通过公式(1)计算:
(4)
然而,传统的基于条目的协同过滤算法仍存在许多不足:
1)没有考虑到项目自身属性的相似性,用户的兴趣往往呈密集性,如果两个项目自身属性很相似,用户对其中一个感兴趣,则可以推荐其另一个;
2)没有考虑到用户的心理受时间的约束,用户往往在一段时间内对某种项目感兴趣,可能过一段时间,用户的品味会发生变化;
3)没有考虑到条目流行度受时间的影响,一个条目可能会在一定时间段内流行,在其他时间段不在流行。
基于上述分析,本文提出了一种针对基于条
文档评论(0)