- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户兴趣改进协同过滤算法研究
基于用户兴趣改进协同过滤算法研究
摘要:针对目前应用较为广泛的推荐算法大都还未明确地帮助用户发现其潜在兴趣这一问题,本文引入用户兴趣度这一概念,提出了一种改进的基于用户兴趣的协同过滤算法,同时通过借鉴0-1背包问题求解来改进用户相似性计算方法。实验结果表明,该算法能更准确地刻画用户本身的兴趣,缓解了数据稀疏性问题,从而提高了推荐算法的推荐准确度。
关键词:个性化推荐;协同过滤;用户兴趣;用户相似性
中图分类号:TP18 文献识别码:A 文章编号:1001-828X(2015)021-0000-01
引言
现有的针对推荐系统的研究大多停留在如何找到“相似”这个层面,尚未真正找到发掘用户本身潜在兴趣的优良算法。针对这个问题,本文提出用户兴趣度,旨在将用户本身的兴趣这一个性化推荐要素纳入算法考虑当中,提出了一种改进的基于用户兴趣本身的协同过滤算法。
一、改进的基于用户兴趣的协同过滤算法
1.用户兴趣度的描述
用户对某个项目感兴趣,是因为该项目中包含了用户感兴趣的项目属性。借鉴TF-IDF算法的中心思想,本文中将用户 u对项目属性 p 的兴趣度的计算定义为:
Interest(u,p)=TF(u,p)*IDF(p);TF(u,p)=;IDF(p) = log
其中,N表示项目属性集合中的元素总数,用户总数为m,n 表示推荐系统中包含的所有的项目总数。Nui表示用户 u 感兴趣的所有项目中包含了属性 i 的个数,Nup表示用户 u 感兴趣的所有项目中包含了属性 p 的个数,np指的是推荐系统中包含属性 p 的项目的总数。
2.基于用户间兴趣差异信息熵的相似性度量
借鉴信息熵,本文引入一个用户兴趣熵的概念来衡量用户间的兴趣差异的分散程度。用户兴趣熵越小,说明用户间的兴趣越趋于相似,那么这两个用户间的相似度就越大。借鉴前述中的信息熵公式,本文中的计算用户兴趣差异度Diff (Ui, Uj)的熵值公式如下:
H(Diff (Ui, Uj))=
3.基于用户兴趣的0-1背包问题
该问题在本文设计中,可以描述为:有N个用户和一个容量为C的背包。第i个用户与目标用户的兴趣熵为ci,第i个用户与目标用户a的相似性为wi。求解将哪些用户划为目标用户a的k个最近邻时,可使这些用户的兴趣熵总和不超过设定值C,且这k个用户间的相似性总和最大。
4.基于用户兴趣改进的协同过滤算法
具体算法步骤描述如下:
输入:用户-项目评分矩阵,项目-属性矩阵,近邻设定值k。输出:N个推荐项目
Step1:根据用户-项目评分矩阵以及项目-属性矩阵,计算用户-兴趣矩阵
Step2:根据1中得到的用户兴趣度矩阵,计算两个用户间的兴趣差异;
Step3:计算两个用户间的兴趣差异的信息熵值;
Step4:根据用户-兴趣矩阵来计算两个用户间的Pearson相关性的相似度;
Step5:由Step2-4中得到的求解该算法中的0-1背包问题;
Step6:由5中得出的0-1背包问题的解,即可得出对于目标用户的k个最近邻;
Step7:计算目标用户a 对项目集合I(Ua) 中项目的预测评分进行降序排列,将前N个项目推荐给用户。
二、实验结果及分析
本文中算法的实证实验中采用的是MovieLens数据集。并选择将最常见的推荐质量评价标准MAE(平均绝对偏差)作为本次实验结果的评价准则。
实验中我们将本文的算法与传统的基于用户的协同过滤(UCF)、基于项目的协同过滤算法(ICF)的推荐性能进行比较。设最近邻数M=7,14,21,….70,ICF对应的MAE为:0.22、0.21、0.198、0.19、0.182、0.179、0.176、0.165、0.163、0.161;UCF对应的MAE为:0.222、0.213、0.205、0.195、0.187、0.18、0.176、0.171、0.165、0.162;本文算法对应的MAE为:0.195、0.185、0.181、0.176、0.17、0.1660.162、0.159、0.157、0.155。明显可以看出:本文提出的算法具有更好地推荐效果。
三、结语
针对传统协同过滤算法没有很好地将用户本身的兴趣纳入算法考虑当中这个问题,本文提出用户兴趣度,旨在将用户本身的兴趣这一个性化推荐要素纳入算法考虑当中,提出了一种改进的基于用户兴趣本身的协同过滤算法;同时通过借鉴0-1背包问题求解来改进传统的用户相似性计算方法,缓解了数据稀疏性对推荐算法的影响。实验结果表明,该算法能更准确地刻画用户本身的兴趣,提高了推荐算法的推荐准确度。
参考文献:
[1] Mukund D
文档评论(0)