- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
协同过滤推荐算法稳定性的研究
协同过滤推荐算法稳定性的研究
摘要 协同过滤推荐算法应用广泛,容易遭到外来系统攻击。用9种相似度指标计算用户相似度,研究协同过滤推荐算法在遭受攻击时的稳定性。实证结果表明:在恶意打分时,相似度指标中改进的热传导相似度指标比其它相似度指标的推荐结果稳定,而皮尔森(Pearson)系数和公共邻居(Common Neighbor)的表现非常不稳定;在随机连边中,相似度指标LeichtHolmeNewman (LHN)的推荐结果非常稳定,而其它相似度指标则表现非常不稳定。研究结果表明用户的相似度度量对于协同过滤推荐算法至关重要。
关键词 协同过滤;相似度指标;恶意打分;随机连边
DOI DOI: 10.11907/rjdk.162367
中图分类号: TP311
文献标识码: A 文章编号 文章编号:2017)002003903
0 引言
协同过滤推荐算法在商业网站中得到了广泛应用[13]。该方法基于用户的历史数据计算用户或产品的相似度进行个性化推荐。在电影推荐网站中,一个用户如果观看了某部电影,则该用户就可以对该电影进行打分,然而这些打分可能会影响其它用户的抉择[4]。在线网络系统每天都会面临来自各种攻击,导致产品的打分信息不一定真实。例如,某些用户可能因为对该产品不熟悉而给予不合理打分,有些甚至可能是 “黑客”,恶意打分[5,6]。对在线用户而言,稳定的推荐结果是推荐算法的重要目标。
目前,在推荐算法稳定性方面有诸多研究。Bhaskar Mehta[7]提出了一种基于矩阵分解的算法(Matrix Factorization algorithm)来解决推荐算法中的随机均值打分攻击问题,此种算法计算复杂度高,对于用户过多的系统具有局限性。此外,周涛等[8,9]基于关联声誉和组织声誉提出了在线系统面对攻击时稳定的两种排序算法。侯磊等[10]研究了多种相似度指标的稳定性问题,同时为用户相似度的计算提供了多种方法。然而,大多数学者专注于算法的优化和改进,并没有从用户相似度的角度衡量推荐算法的稳定性。
本文主要研究九种相似度指标在两种攻击下的稳定性问题。实证结果表明,在恶意打分攻击中,推荐算法在LHN指标和改进的热传导(Improved Heat Conduction)指标表现较其它指标更为稳定。特别,当恶意打分概率,推荐列表长度时,LHN指标的推荐准确性比皮尔森(Pearson)指标准确53%,比公共邻居(Common Neighbor)指标准确55%。
1 推荐算法以及相似度指标
1.1 协同过滤算法
协同过滤算法是根据与目标用户选择和打分行为相似的用户集合来预测目标用户喜好的产品。首先计算目标用户与其他用户的相似度,选取与该目标用户最相似的用户作为 “好友”,去除目标用户已经选择过的产品,将 “好友”选择过的剩余产品生成推荐列表推荐给目标用户。
“好友”选择的产品决定了目标用户推荐列表的内容,所以确定“好友”是算法的重要步骤。衡量用户之间的相似度是决定推荐算法优劣的关键。本文分别用了九种相似度指标来计算用户的相似度。
计算用户相似度后对“好友”选择过的产品(去除目标用户选择过的产品)进行预测打分,定义用户对产品的预测打分Pred(o)为:
其中,sαβ代表相似度指标,rβo表示用户对产品的打分,rβ 表示用户对所有产品评分的平均分。对所有被预测打分的产品将按降序排列,选取排名前L个产品作为目标用户的推荐列表。
1.2 9种相似度指标
相似度指标是用来衡量两个用户之间的相似程度,9种指标如下:
基于用户历史打分的指标有两种:Pearson Coefficient (PC)指标[10,11]和 Cosine Index (CI)指标[10,12],其公式定义为:
其中,Oαβ是用户α和用户β共同选择产品的集合,rα 和rβ 是用户α和用户β对各自所选产品打分的均值,向量rα和rβ分别表示用户α和用户β所选共同产品的打分向量。
此外,当用户的历史打分信息不可获取时,用户相似度还可以依据用户和产品的度信息来衡量,例如公共邻居Common Neighbor (CN)指标,其定义为:
2 两种攻击模式介绍
首先,构建包含 n 个用户、 m 个产品和 l 条连边的用户――产品二部分网络:包含用户构成的集合U={u1,u2,…un}和产品构成的集合O={o1,o2,…om},建立用户和产品之间的连边E={e1,e2,…el}。
本文用两种攻击模式测试推荐算法的稳定性,恶意打分来自于恶意用户或者测试工程师随机抽取数据,从{1,2,3,4,5}中打分;另一种攻击是随机连边,测试者随机连边来扰乱数据结
您可能关注的文档
- 十三五期间黑龙江省公共资源配置的研究.doc
- 十三五的规划以构建“民生国家”为主线.doc
- 十三五的规划对外传播议题设置初探.doc
- 十三五的规划背景下城市会展业发展再的思考.doc
- 十三五的规划背景下我国流通产业的空间格局构建新的思考.doc
- 十三五的规划解读五大发展理念提纲挈领.doc
- 十三五职工养老保险制度统筹的改革的思考.doc
- 十三五背景下我国流通产业升级的研究.doc
- 十三夜中未登场功能性人物的研究.doc
- 十三五阜阳市智慧交通信息化发展对策的研究.doc
- 2025YY年科技研发合同.docx
- 2025年高层管理人员业绩合同执行监控表.docx
- 2025-2026学年上学期高一英语外研社版期末必刷常考题之阅读理解.docx
- 2025-2026学年上学期高一英语人教新版期末必刷常考题之信息匹配.docx
- 2025-2026学年上学期高一英语人教新版期末必刷常考题之读后续写+概要.docx
- 2025-2026学年上学期高二英语人教新版期末必刷常考题之阅读表达.docx
- 2025-2026学年上学期高二历史部编版期末必刷常考题之民族关系与国家关系.docx
- 2025-2026学年上学期高一英语人教新版期末必刷常考题之语法填空.docx
- 2025-2026学年上学期高一历史部编版期末必刷常考题之中国共产党成立与新民主主义革命兴起.docx
- 2025-2026学年上学期高中语文统编版高一期末必刷常考题之文学类文本阅读.docx
原创力文档


文档评论(0)