- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
南阳理工学院
《科技文献检索》结课大作业
计算机与软件 学院 软件工程 专业
课题名称:基于Spark的电影推荐系统的设计与实现
关 键 词:Spark、推荐系统、矩阵分解、协同过滤
1.本课题所涉及的问题在国内(外)的研究现状综述
推荐系统被提出并受到大众的关注已有二十多年了。在国外,Goldbery等人员于1992年在Tapestry垃圾邮件过滤系统[1]中运用了协同过滤思想。1994年GroupLens研究组推出GroupLens系统用于对新闻的推荐。2006年Netflix举办了改进推进系统大赛,然而这场比赛也催生出了许多其他优质的推荐算法,例如比较有名的当属隐语义模型[2]和矩阵分解[3]。它们为后续的推荐系统发展奠定了重要的理论依据。文献[4]提出了将时间用于在推荐算法中,在特定时间向用户推荐。在国内,文献[5]对目前比较流行的框架进行分析,Netflix Prize竞赛提出了基于矩阵分解的二项矩阵分解模型。文献[6]提出了在相似度计算中融入项目类别喜爱度和类别关注度,再对用户进行聚类,最后做出推荐,不仅时间复杂度变低,而且也使得推精度进一步升高。
综合来看,推荐系统主要是从优化推荐算法以及推荐算法与实际工程应用相结合等两个方面进行研究[7],目前常用的有:
(1)基于协同过滤算法的推荐[8,9]。它是以用户的历史行为信息以及最近邻居为基础进行推荐,也是较早被广泛关注和发展的算法。在某一特定用户或物品的集合内,求出它们的相似度,并获取各自的邻居集合。然后把用户没有使用过的物品推荐给他,同时也去除用户曾经使用过的物品,以避免重复推荐,从而完成整个推荐过程。一些商业系统中,在用户物品信息量比较大的情形下,用户间直接有共同行为的物品数据非常少,会造成共同行为数据比较稀疏的问题。同时,在新用户或者新物品进入业务系统后,由于没有历史行为也会造成冷启动的问题[10],对此提出了协同聚类算法[11]。协同过滤发展的历史最悠久,到现在依然普遍适用,充分的体现出它的健壮性,而且还得到了普遍的应用,亚马逊、淘宝、京东、爱奇艺等流行的网站中都包含了基于该思想的推荐算法。
(2)基于内容的推荐。从信息检索领域发展出基于内容的推荐方法[12]。主要是通过预先提取物品自身的属性特征,然后根据它们的属性差异来作为数据源进行推荐的。首先为每个用户建立符合自身的特征向量,然后通过这些特征向量计算出他们各自的相似性,再通过相似性筛选出用户各自的邻居集合。因此,这种推荐方式不需要考虑其他用户行为的信息,也即不存在考虑用户对物品评价的因素。正因如此,它的这一优点克服了在推荐过程中会常常遇到的冷启动问题[13],而且对于数据稀疏方面上也能得到一定程度的缓和,从而实现推荐系统的个性化。
(3)基于关联规则的推荐。关联规则有个“啤酒和尿布”的小故事案例,但是也特别的经典,常常被拿来用作分析关联规则算法的分析,其思想是从数据集中找到项与项的关系,简而言之的理解就是用户购买某个物品的时候,同时也去购买另一个物品的概率。它是对于最大频繁项的求解,通常有Apriori和FP-Growth使用较多[14]。
(4)基于聚类的推荐算法[15]。基于聚类的算法有K最近邻算法,它可以按照用户或物品划分,对于专门来缓解数据稀疏有非常很好的作用[16]。
在推荐领域一般对“数据稀疏”、“冷启动”以及“用户兴趣偏移”等优化的研究讨论较多。冷启动表现为在增加新的用户或者新的项目时,由于缺乏用户的历史行为信息,从而无法做出精准的推荐,也就是不能提供个性化推荐存。数据稀疏问题表现为在系统中巨大的用户量以及物品信息,用户无法为所有的物品都进行评分操作,导致在用户物品矩阵中的评分数据异常稀少,甚至1%也未达到,以至于两个用户一起都评分的列表可能为空,难以形成有效的推荐。
用户兴趣偏移问题表现为用户在以前的某一时期喜爱该物品,但经过一段时间之后,由于环境或其他原因的影响,已对原先的物品不感兴趣,亦或是感兴趣程度下降。对此类问题比较常用的方法有:
(1)面对冷启动问题,主要有:第一种是采用原始评分数据通过取平均值等方式赋予新物品具有评分。第二种是将其他有效数据信息与原始数据共同运算,在相似度求解过程中引入信任模型从而提升推荐精度。
(2)面对稀疏性问题,推荐算法中常使用聚类技术和矩阵降维技术。例如,采用奇异值分解的方式[17]以及后来发展的ALS算法对矩阵分解[18],从而达到降低维度的效果,但是依然存在运算量大和存储量高等问题。Gongde Guo等分别对用户或物品采取聚类的方式来缓解数据稀疏性问题[19]。Thomas George假设用户与物品间可能存在某种潜在联系的基础上,提出了协同聚类的推荐系统[20],明显要比只采用聚类一种方法的效果好。
(3)面对用户兴趣偏移问题,常
您可能关注的文档
- 科技文献检索结课大作业-基于C#完成的定时回调技术.docx
- 科技文献检索结课大作业-基于ssm框架的学习打卡系统.docx
- 科技文献检索结课大作业-基于SpringBoot和Vue的高并发商城.docx
- 科技文献检索结课大作业-基于ssm的网上招聘系统的技术与实现.docx
- 科技文献检索结课大作业-基于改进粒子群算法的排课问题.docx
- 科技文献检索结课大作业-基于SpringBoot的网络购物平台.docx
- 科技文献检索结课大作业-基于Vue.js的电商平台.docx
- 科技文献检索结课大作业-基于Spark的电影推荐系统.docx
- 科技文献检索结课大作业-ubuntu系统下搭建ftp.docx
- 科技文献检索结课大作业-linux环境下高并发服务器.docx
最近下载
- 云南省昆明市2024年小升初语文真题试卷及答案 (2).docx VIP
- 第5章-吹风及卷发造型(课上实操:利用吹风、卷发棒-练习卷发拍照).ppt
- TACEF 117-2023 动物×射线诊断辐射防护与安全要求.pdf
- 新一届支委会第一次全体会议选举办法.doc
- 《十万个为什么》(米·伊林)分享课课件.pptx
- 水利工程安全防护文明施工措施项目清单.docx VIP
- 05SFD10《人民防空地下室设计规范》图示——电气专业.docx VIP
- 杭州师范大学双带头人教师党支部书记工作室提交书【模板】.docx VIP
- 昆明市呈贡区数学小升初数学试卷.doc VIP
- 四川师范大学“双带头人”教师党支部书记工作室申报书.doc VIP
本人专注于k12教育,英语四级考试培训,本人是大学本科计算机专业毕业生,专注软件工程计算机专业,也可承接计算机专业的C语言程序设计,Java开发,Python程序开发。
文档评论(0)