- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于混合相似度协同过滤推荐
基于混合相似度协同过滤推荐 摘要 user-based协同过滤算法在B2C电子商务中是一种重要的推荐方法,但是用户共同评价项目的稀缺性导致了协同过滤算法质量的下降。鉴于此,在考虑用户评分数据的基础上,对用户评分记录进行聚类平滑。考虑用户购买记录作为数据源之一,并用曼哈顿距离相似度计算方法计算用户购买记录,将两者线性组合得到混合相似度,使用混合相似度进行推荐,通过实验计算两者线性组合的最佳权重系数,比传统的利用用户评分记录和用户购买记录的精确度高。实验结果表明,基于混合相似度的协同过滤推荐能有效提高由于数据稀缺性造成的推荐准确度
关键词 协同过滤;数据稀疏性;混合相似度
DOI DOI: 10.11907/rjdk.162496
中图分类号: TP301
文献标识码: A 文章编号 文章编号:2017)002003204
0 引言
随着互联网技术的不断发展,信息过载现象越来越突出,个性化推荐系统应运而生,并不断地改进。协同过滤作为目前推荐系统成功应用,其基本思想是相似用户具有相似的兴趣爱好,寻找目标用户兴趣最紧邻的用户,根据最近邻用户的评分来预测目标用户对商品项的评分值,选择预测评分最高的前N项商品推荐给目标用户[1]。然而,用户评分数据存在着数据稀疏性和推荐实时性,从而使推荐结果存在偏差
为解决此问题有学者从信息源出发,把用?舻氖?据分为两大类[2]:显式数据和隐式数据。显式数据为用户的评分数据,而隐式数据是运用信息技术获取用户页面访问情况。董全德[3]提出了基于双信息源的协同过滤算法,判断活动用户对目标项目的兴趣程度,建立相似用户推荐组和专家推荐组,把两个推荐组的建议结合起来,形成一个可靠的信息源,然后分析各自影响活动用户对目标项目的权重,计算活动用户的最终兴趣度,实现系统推荐。贺桂[4]利用用户偏好挖掘技术进行用户显性偏好知识和隐性偏好知识挖掘分析,实现基于用户偏好知识的最近邻居社区构建和智能推荐。有学者为解决稀缺性问题将研究方向放在改进相似度方法方面。杜茂康等[5]运用改进的Slope One算法,该算法使用邻近项目进行计算,降低了数据的稀疏性,同时也减少了计算量;任看看和钱雪忠[6]采用结合修正公式改进的Jaccard相似性系统计算用户之间的相似度,在计算过程中考虑用户之间的共同评分项和所有评分项的关系,以及用户在共同评价项目上的评分差异对用户相似度的影响,从而获取更加精确的用户相似度矩阵。有学者通过聚类的方式来解决数据稀疏性问题。刘剑涛[7]针对传统协同过滤算法依赖单一用户需求形态影响推荐效果的问题,提出了一种基于用户多态聚类的个性化推荐,通过改进的海明距离计算候补邻居集,结合多态相似度进行二次聚类。吴泓辰[8]将协同过滤技术和划分聚类技术相结合,参照矩阵来推荐信息,完善矩阵赋值范围,在此基础上提出划分聚类的改进推荐算法,提高算法的准确性和实时性
针对数据稀缺性导致推荐质量差的原因,本文使用用户评分矩阵进行相似度计算,使用用户购买记录即用户对商品的购买数量进行相似度计算。一方面购买记录客观地反映了用户的偏好习惯,而且购买记录往往多于用户的评分矩阵;另一方面,没有忽视用户评分矩阵的作用。同时改进了用户相似度计算方法,保证了推荐的质量和精确度
1 相似度计算方法改进
1.1 用户购买记录相似度
根据协同过滤算法的原理,需要先计算目标用户与推荐系统中其他用户的相似度sim(i,j)。目前,传统的相似度计算方法中最流行的有皮尔逊相关性、余弦相似性以及修正的余弦相似性。但是这些传统相似度计算方法对用户购买记录的计算存在一定问题。具体如下:
1.1.1 皮尔逊相关性
皮尔逊相关性是一种度量两个变量间线性相关程度的方法[9],设用户i和用户j共同购买集合为Ii,j,则皮尔逊相关性所得到的两个用户间的相似度sim (i,j 为:
1.1.2 余弦相关性
余弦相似性通过测量两个向量之间角的余弦值来度量它们之间的相似性。设用户i和用户j的购买数量分别为I和J,其中未购买的设置为0。则用户i和用户j的余弦相似性可用式(1)来表示:
1.1.3 修正的余弦相关性
为了解决没有考虑不同用户的购买数量尺度问题,引入了修正的余弦相关性,通过考虑用户购买数量的平均数来消除评分尺度的差异,其公式为:Sim(i,j)= ∑nc=1(R
这3种相似度计算方法不适用于用户购买记录,首先没有考虑不同用户的购买数量尺度问题[10],其次由于未购买的设置为0,如果购买数量矩阵出现稀疏性严重的情况下,矩阵中出现很多0值,但实际上用户没有购买不代表用户的偏好为0,将导致计算出来的相似性结果存在偏差,不利于预测目标用户的购买数量[11]
1.
您可能关注的文档
- 基于新课改背景下小学科学实验教学课程探索.doc
- 基于新课改背景下高中化学教学探究.doc
- 基于新课标下小学语文阅读课程教学.doc
- 基于新课标理念高中物理学习方法心得体会.doc
- 基于新课程背景下初中物理浮力相关知识教学分析.doc
- 基于新课程改革小学语文教学探索.doc
- 基于新道创新创业平台公共事业管理专业实践教学探究.doc
- 基于新预算法视角下行政事业单位财务管理分析.doc
- 基于新题型―语法填空题―启发下词汇教学.doc
- 基于方法改进后中国对外贸易隐含能测算.doc
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)