- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
协同过滤中基于用户的相似度计算方法研究.doc
协同过滤中基于用户的相似度计算方法研究
【摘要】协同过滤算法已经成为推荐系统中应用程度最为广泛和有效的一种方法。评分预测推荐算法作为协同过滤的一个重要的分支研究方向,有着非常重要的地位和研究价值。评分预测推荐中基于用户的协同过滤推荐算法最关键的一步就是用户间相似度的计算。弄清基于用户的不同相似度计算方法的特点、公式和优缺点,对提高协同过滤的评分预测准确度具有重要意义。
【关键词】协同过滤;评分预测;相似度
推荐系统中最为重要的推荐算法就是协同过滤推荐算法,协同过滤在工业界和学术界已经得到了很深入的研究和发展,具有举足轻重的商用价值和学术意义。基于用户的协同过滤推荐算法是协同过滤算法的一个重要研究分支,自 20 世纪 90 年代以来一直是领域内关注的焦点。基于用户的协同过滤算法中最关键的步骤就是对用户相似度的计算。不同的相似度计算方法具有不同的公式和优缺点,能适应不同的数据环境。
一、基于用户的协同过滤推荐算法
基于用户的协同过滤是一种基于存储的协同过滤推荐算法。该算法认为一个用户会喜欢和他有相似兴趣爱好的用户喜欢的产品。因此,要对一个用户做推荐,首先得找到和他兴趣爱好相似的用户。
在User CF 中,两个用户兴趣爱好相似是因为他们喜欢相似的产品。这种相似性通过用户相似度进行衡量。衡量两个用户的相似度主要有两种思路:一种认为对于给定用户u、a,若他们对于任意产品i总是给出相似的评分,则认为这两个用户相似,这种方法被称为 Correlation相似度方法;另一种则认为如果用户u、a总是对相同的产品进行浏览、评价等行为,则这两个用户相似,这种方法被称为Relevance相似度方法。
利用计算所得的用户相似度,User CF为待推荐用户寻找近邻,以便利用近邻行为预测当前用户的行为。近邻搜索是User CF算法的核心内容之一,其效率和质量直接影响推荐算法的有效性。近邻搜索往往需要为当前用户寻找K个最相似的用户,因此,亦被称为 K近邻方法(K-Nearest Neighbors,简称KNN)。
在确定了用户u的近邻集合后,User CF 利用这些近邻的评分信息,将其进行加权平均,预测用户u对未评分产品的评分值。其计算方法如下面公式所示:
其中,为用户u和用户a的相似度,N(u)为用户u的近邻集合。在Top-N推荐忠,UserCF通过预测用户对产品的评分值信息,对用户未评分产品进行排序,预测评分值较高的前N个产品推荐给用户。
二、四种典型的衡量用户相似度的方法
(一)余弦相似度(Cosine)[1]是一种典型的 Correlation 相似度方法。它将用户的历史评分信息看作是n维向量,即使用u、a分别表示用户u和用户a的历史评分信息。其中向量的第i个元素是该用户对第i个产品的评分值,未评分产品用0代替。用户u和用户a的余弦相似度可以用两个向量的夹角余弦表示,即:
其中是用户u对产品i的评分值,是用户u和用户a共同评分的产品集合。
(二)皮尔逊相关性(Pearson Correlation, PC)[1]亦是一种典型的Correlation 相似度方法。它是自然科学领域中广泛用于度量两个变量间线性相关程度的方法之一。在User CF中,它可以有效描述两个用户在若干个产品上评分变化趋势的一致程度。其计算方法如公式所示:
其中,是用户u对产品的平均评分值。
(三)欧几里德距离相似度(Euclidean Distance Similarity)[3] 最初用于计算欧几里德空间中两个点的距离,后引用到推荐领域,用来计算两个用户间的相似度,距离越小,相似度越大,其计算方法如下:
(四)Jaccard 相似度[4]是一种典型的Relevance相似度方法。它通过计算用户u和用户a评分的产品集合的相似程度衡量两个用户之间的相似度,两个用户共同评分的产品越多则他们越相似,其计算方法为:
(五)对数似然相似度(Log-Likelihood)[5]亦是一种典型的Relevance相似度方法。它通过计算用户和用户所评分产品集合的对数似然相似度衡量两个用户间的相似程度,其计算方法如以下三个公式所示:
其中,的取值(项目次数)如下表所示:
(六)斯皮尔曼等级关联(Spearman Rank Correlation, SRC)定义为物品i在用户u所评分物品中的排位(并列评分用它们的平均排名),则用户u和v的相似度可以这样计算:
其中,是用户所评价物品的平均排名。
三、不同相似度计算方法的比较
由于没有考虑负关联,欧几里德距离求得的预测评分准确度是最低的。Jaccard 相似度并没有考虑评分的多少而是根据评价的排名确定相似度。同时,
您可能关注的文档
最近下载
- GB50578-2010 城市轨道交通信号工程施工质量验收规范.docx VIP
- 科学素养拓展课程——纸火箭 公开课教案教学设计课件资料.pptx VIP
- (高清版)DB51∕T 2398-2017 农村敬老院建设与管理规范.pdf VIP
- 2025年河南省纪委监委公开遴选公务员笔试试题及答案解析.docx VIP
- 隧道施工模拟软件:3Dmine二次开发_(3).3Dmine二次开发前的准备.docx VIP
- 高一数学幂函数同步检测练习题.docx VIP
- 2025年山西省纪委监委公开遴选公务员笔试试题及答案解析.docx VIP
- 精品解析:广东省广州市广大附中2024-2025学年九年级上学期11月大联盟月考物理试题(解析版).docx VIP
- 宜家 书桌 THYGE 泰吉 书桌 192.451.92 安装指南.pdf
- Unit1Makingfriends复习(课件)-人教PEP版(2024)英语三年级上册.pptx
原创力文档


文档评论(0)