基于用户兴趣协同过滤算法.docVIP

下载本文档

5
0
约3.56千字
约 8页
2018-08-30 发布于福建
举报
版权申诉

基于用户兴趣协同过滤算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于用户兴趣协同过滤算法

基于用户兴趣协同过滤算法　　摘要摘要：大数据时代，如何让用户在海量信息中快速查询所需信息尤为重要。推荐系统可发现用户潜在需求，为用户提供个性化服务。以电影推荐系统为例，提出了一种改进的协同过滤算法，并在真实数据集上进行实验，结果表明系统可靠性明显提高。　　关键词关键词：大数据；协同过滤；用户兴趣；数据挖掘　　DOIDOI：10.11907/rjdk.1511272 　　中图分类号：TP312 　　文献标识码：A文章编号文章编号2016）002005002 　　0引言　　随着信息技术的发展，人类进入了大数据时代，出现了“信息过载”，过多垃圾信息浪费了人们大量的宝贵时间，传统的解决方法是使用搜索引擎。在用户需求相对明确时，使用搜索引擎可通过关键字方便地搜索到所需信息，但大多数情况下，用户并不太明确自己的需求，难以发现所需信息。于是个性化推荐受到广泛关注，并成为当前的一大研究热点[13]。协同过滤是最成功的一种个性化推荐算法[4]，其基本思想是根据人们的历史评分行为预测用户对某一特定项目的评分。本文提出了一种改进的协同过滤算法并应用于电影推荐。实验表明，该方法能够提高推荐的可靠性。　　1协同过滤算法　　传统协同过滤算法只用到用户对项目的历史评分，根据历史评分记录计算用户或项目间的相似度，建立最近邻集，再根据最近邻集计算预测值。用户相似度计算一般采用Person相关系数：　　Sim（ui，uj）=∑k∈Iij（rik-i）×（rjk-j）∑k∈Iij（rik-i）2×∑k∈Iij（rjk-j）2（1）　　其中，Iij表示用户ui和用户uj共同评分过的项目集合，rik和rjk分别表示用户ui和用户uj对项目Ik的评分，i和j分别表示用户ui和用户uj的评分均值。　　以用户ui为例，按相似度降序排列，得到最近邻集NUi，计算目标用户ui对推荐项目Iy的预测评分：　　Riy = i + ∑j∈NUi sim（ui ，uj ）×（rjy -j ）∑j∈NUi sim（ui ，uj ）（2）　　2改进的协同过滤算法　　现实生活中，人们往往倾向于选择观看自己感兴趣的电影，以GroupLens 研究小组提供的 MovieLens电影数据集为例，电影分为18种类型，包括Action、Adventure、Animation、Children’s、Comedy、Crime、Documentary、Drama、Fantasy、FilmNoir、Horror、Musical、Mystery、Romance、SciFi、Thriller、War和Western，每部电影属于18种类型中的1种或几种。　　传统的协同过滤仅考虑用户评分，有些项目可能受欢迎程度高，用户评分普遍较高，如用户a和用户b共同评分过的电影全部为热门电影，两人给的评分也相似，由传统协同过滤方法可知，两人的相似度很高，但两人可能兴趣不同，用户a评价的大量电影用户b没有评价过，反之亦然。为了避免上述情况，本文改进算法的思想是找到与目标用户评分与兴趣都相似的最近邻集，然后计算预测值、产生推荐。　　2.1构建用户兴趣权重　　根据用户的历史评分记录，构建用户兴趣。用户的偏好可用一组类别矢量表示，矢量的权重可以利用修改的TF-IDF计算，用户ui对类别Gj的偏好权重公式为：　　gij=tf（ui，Gj）.idf（Gj）（3）　　tf（ui，Gj）为用户 ui 评价过的Gj类别的电影数除以其评价过的所有电影数，如下式所示：　　tf（ui，Gj）=NjuiNui（4）　　idf（Gj）表示用户总数与评价过Gj类别电影的用户数的比值，计算公式如下：　　idf（Gj）=logNNGj（5）　　2.2计算用户兴趣相似度　　计算出用户的兴趣权重后，根据用户兴趣权重可构建用户-兴趣矩阵，如图1所示。　　基于用户-兴趣矩阵，借鉴协同过滤的皮尔逊相关系数，计算出用户间兴趣偏好相似性，如式（6）所示。　　simG（ui，uj）=∑18k=1（gik-i）（gjk-j）∑18k=1（gik-i）2（gjk-j）2（6）　　其中，i=∑Kk=1gikK，j=∑Kk=1gjkK分别表示用户ui和uj的兴趣权重均值。　　2.3找到最近邻集　　根据式（7）计算目标用户和其余用户的评分与兴趣相似度，选取前K个相似度值最高的用户作为目标用户的最近邻集。　　sim*（ui，uj）=α?sim（ui，uj）+（1-α）?simG（ui，uj）（7）　　其中，α为调和系数，实验中α取0.5。　　2.4产生推荐　　利用形成的兴趣相似最近邻集，预测目标用户对项目的评分，公式如下：　　Riy=i