基于改进推荐算法的微博推荐研究.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进推荐算法的微博推荐研究 1 微博推荐系统研究 在web2。0时代,微博的发展趋势是网络现象。微博让人们通过虚拟的网络来获取实时、海量的信息。现在流行的微博网站,国外有Twitter,国内有新浪微博等。在微博上的研究也有许多,比如在微博上找到影响力最高的用户;在微博上进行广告的宣传和投资;检测微博信息的真实性,从而防止谣言的传播;对微博信息进行分类等。 在微博上关于推荐的研究也有很多。大部分是进行好友推荐、散列标签(Hash tag)推荐或者新闻推荐,而对于微博中主要的载体,简短却包含海量实时信息的微博内容推荐的研究则不多。微博内容推荐(以下简称微博推荐)有以下三个难点: (1)用户的活跃程度低。在传统的推荐系统中,用户登录一个推荐系统,就是为了选择一些他想要的资源。而在微博推荐中,许多用户上微博,更多的时间处于“看微博”,而不是“发微博”,因此很难直接获得他们的显式反馈信息,也难以对他们的兴趣进行学习和预测。 (2)数据的稀疏性和不对称性。在传统的推荐问题中,用户和资源一般是同一个数量级的。但是在微博推荐问题中,由于微博数据海量的特点,微博的数量和增长速度远远大于用户的数量和增长速度。 (3)用户兴趣的动态变化。微博的话题一直紧随现实世界的发展,因此微博上话题不断变化,用户的兴趣也随之变化。在传统推荐问题中,往往是用户根据兴趣选择资源。在微博推荐中,则是不断出现的微博改变着用户的兴趣,再由用户选择喜欢的微博。因此用户的兴趣一直在动态变化,很难找到一个用户长时间感兴趣的话题。 推荐系统中大部分研究都是利用系统中的一些显式信息来进行学习和预测。显式信息指的是由用户主动提供给网站的信息,如用户的资料、用户喜爱的资源。而与显式信息对应的隐式信息,指的是网站自动获得的信息,如用户的浏览时间、上下文环境等。在现实世界中,大量的信息都是隐式信息而不是显式信息。相比显式信息,隐式信息不需要用户主动提供,因此更容易在实际应用中被使用。事实上,在用户浏览的过程中,浏览器和服务器都已经记录了大量的隐式信息,可以通过各种方法从后台数据库中和浏览日志中挖掘出来。在微博系统中,也存在着多种隐式信息。例如,用户发出微博的时间、用户浏览微博时上下文环境、用户与其他用户之间的好友关系。 针对以上难点,本文提出了一种基于贝叶斯个性化排序(Bayesian personalized ranking,BPR)的微博推荐算法。BPR的主要思想是,利用贝叶斯最大后验估计求出微博对之间的全序关系,从而获得用户对微博的个性化排序。本文的贡献有: (1)利用推荐系统中用户浏览上下文环境这个隐式信息,来解决微博推荐问题中用户活跃程度低,发出微博少的问题。 (2)利用基于微博对的推荐算法来解决数据的稀疏性和不对称性。 (3)利用微博所发出的时间这个隐式信息,来实时地获取用户的当前兴趣,从而解决用户兴趣动态变化的问题。 2 基于用户的协同过滤算法 Twitter中有许多推荐算法的应用,比如根据用户的资料和兴趣,为其推荐可能感兴趣的好友;在用户撰写微博时,根据微博的内容,为其推荐合适的散列标签;根据用户以往转发的微博和关注的话题,为其推荐可能感兴趣的热点新闻。 推荐系统算法中,比较成功的是协同过滤算法。基于用户的协同过滤算法将用户与系统中其他用户进行比较,找到兴趣与该用户最相似的用户群,通过对这个用户群进行学习,从而对该用户的行为进行预测。这个算法基于现实世界的一个理论“与我行为相似的人喜欢这个东西,那么我通常也会喜欢这个东西”。 基于用户的协同过滤算法主要有两个模型:最邻近点对模型和潜在参数模型。 (1)最邻近点对模型 最邻近点对模型首先定义一种用户相似性的评价标准。当要预测用户u对一个资源i的兴趣值时,由与用户u最相似的邻居群对资源i的兴趣值来决定。例如,将用户u的“邻居”们对资源i的兴趣取平均值,作为用户u对资源i的兴趣值。 (2)潜在参数模型 潜在参数模型通过学习未被直接观察到的参数,来预测推荐系统中未观察到的值。一个典型的潜在参数模型是矩阵分解模型。对每个用户u,找到一个K维向量Wu,对每个资源i,找到一个K维向量Hi。并且假设模型中每个用户u对每个资源i的兴趣为对应的潜在向量Wu和Hi的内积。 3 研究方法1:微博对,用户选择了一个乡村社会中一个单 个性化推荐算法的目标是提供给每个用户个性化的、最有可能会感兴趣的一个资源序列。本文提出的微博推荐算法即为一个个性化推荐算法,目标是为每个用户提供一个他最可能感兴趣的微博集合。本文以实际微博系统中,用户转发了这条微博来模拟用户选择了这条微博。将用户对微博的行为定义为回应:用户看到并且转发了这条微博,则为正回应;其他的情况,包括用户未看到这条微博或者用户看到了这条微博但是没有转发,都作为未来可能要预测的缺失回应。 传统的

文档评论(0)

lczslgy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档