- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
融合评论分析和隐语义模型的视频推荐算法.doc
融合评论分析和隐语义模型的视频推荐算法
摘要:针对网络视频元数据信息缺失严重和多媒体数据本身特征难以提取等问题,提出了融合评论分析和隐语义模型的网络视频推荐算法。从视频评论入手,通过分析用户对不同视频的评论内容以判断其情感倾向并加以量化,继而构建用户对项目的虚拟评分矩阵,弥补了显式评分数据稀疏性问题。考虑到网络视频的多元性和高维度特性,为了深度挖掘用户对网络视频的潜在兴趣,针对虚拟评分矩阵采用隐语义模型(LFM)对网络视频分类,在传统的用户―项目二元推荐系统基础之上添加虚拟类目信息以进一步发掘用户―类目―项目关联关系。实验在多重标准下进行,对YouTube评论集的实验表明,所提推荐方法获得了较高的推荐精度。
关键词:推荐系统;网络视频;评论分析;隐语义模型;情感词
中图分类号: TP181
文献标志码:A
0引言
随着互联网的发展,作为Web2.0时代典型代表的视频网站也开始越来越普遍地走进人们的生活,如国内的优酷、土豆,国外的YouTube等,社交媒体的发展进一步推动了网络视频网站的发展,用户在视频网站上看到满意的视频后往往会分享到Facebook、Twitter、微博等社交媒体上,同时用户也会在社交媒体上浏览发掘自己感兴趣的视频。与Netflix、Hulu等基于电影或者电视节目等传统视频网站不同,具有Web2.0特征的视频网站由于允许用户自己上传发布视频,其视频内容得到了极大丰富,视频维度也获得了空前发展,用户对网络视频的需求得到了持久且显著的满足。但这种用户自发性的活动也带来了不少的问题,比如网络视频碎片化、显式评分数据稀疏性问题,很多用户上传的视频质量参差不齐,缺乏足够的元数据信息甚至元数据信息错误等。同时由于视频等多媒体数据本身的属性决定,使得很难像文本分析那样直接从数据本身的角度对视频内容作特征提取和用户兴趣度建模,给项目间相似性度量以及进一步产生合理推荐带来了巨大的挑战。
构建推荐系统目前最常用的方法就是协同过滤模型,但无论是基于用户的协同过滤算法(Userbased Collaborative Filtering,UserCF)还是基于项目的协同过滤算法(Itembased Collaborative Filtering, ItemCF),都需要构建在用户―项目评分矩阵之上,而目前大多数视频网站(包括YouTube、优酷、土豆等)由于其商业属性都不提供用户评分功能,取而代之的是“赞”和“踩”之类的二元分类标准,即使是如此简单的二元分类方法,也存在很大的数据稀疏性问题。
为此,本文提出了融合评论分析和隐语义模型的网络视频推荐算法(Video Recommender Fusing Comment analysis and Latent factor model,VRFCL),它以用户评论为基础,并利用文本情感词分析技术,首先计算出用户对某视频的情感倾向度,并以此作为此用户对该视频的虚拟评分,从而构建虚拟评分矩阵,是对显式评分数据的一个有力补充。同时由于网络视频的覆盖范围之广、维度之高、粒度之细,为了更好地对用户兴趣建模,发掘长尾数据,在虚拟评分矩阵的基础上利用隐语义模型把传统的用户―项目二元推荐系统扩展为用户―种类―项目三元推荐系统,通过预估用户对某视频种类的喜好程度以及某视频与此视频种类的关联程度来为用户产生推荐。
1相关工作随着最近通信技术的发展和带宽的提高,网络视频在人们的日常网上冲浪行为中占据了越来越高的比例,Web2.0 时代的到来,使得视频网站承载的信息量呈现出爆炸式增长的趋势。不同时期的不同研究人员也分别从不同的角度对网络视频推荐系统进行了深入的研究,其中Mei等[2]提出了一个名为VideoReach的在线视频推荐系统,它没有考虑用户兴趣模型,而是根据当前用户正在观看的视频对用户产生推荐;在VideoReach中衡量两个视频是否相关的标准是由视频的文本信息(如标题、内容描述、标签)来决定的,这也是目前做视频推荐系统的主流方法。Yoshida等[3]在Mei的基础之上对发掘文本相似度进行了更进一步的粒度细化,并引入了对视频的文本数据进行语义和情感分析的概念和方法。Demovic等[4]绕过传统的基于比较文本信息的视频相似度分析途径,提出了一个基于图遍历的视频推荐方法,从用户行为角度出发,分析并对用户兴趣建模。杨兴耀等[5]通过人工标注的方法为推荐项目添加了不同的属性,进一步发掘了用户―属性、属性―项目之间的关联关系。除了上述在视频网站内部进行数据挖掘以外,有的研究者把视线投向了更广阔的范围,其中Ha等[6]引入了社交网络中用户间交互度的概念,它使用基于用户的协同过滤算法,在衡量用户间相似度时,不仅考虑用户在视频网站内部的评分矩阵相似性,更把
文档评论(0)