- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于相似度和信任度关联规则微博好友
基于相似度和信任度关联规则微博好友
摘要:针对关联规则个性化好友推荐中规则挖掘效率及推荐有效性不高的问题,首先提出基于散列及位图的改进关联规则算法BHA。该算法通过引入散列技术,减少了频繁2项集挖掘所需的时间;利用位图及相关性质,压缩无关候选项,减少了数据集所需的遍历次数。另外,在BHA的基础上,提出基于相似度及信任度的推荐算法STA,利用出、入相似度定义信任度,有效解决了新浪微博未提供显示信任关系的问题,同时弥补了相似度推荐未考虑用户间远近层次关系的缺陷。采集新浪微博用户数据进行实验,在关联规则挖掘效率的对比上,BHA挖掘所需的平均时间仅为改进AprioiriTid算法的47%;在好友推荐的有效性上,推荐算法STA较SNFRBOAR算法在准确率及召回率上分别提升了15.2%和9.8%。实验结果表明,STA能够有效降低规则挖掘所需的平均时间,并使实际好友推荐的有效性得到提升。
关键词:好友推荐;关联规则;出相似度;入相似度;信任度
中图分类号:TP181
文献标志码:A
0引言
随着Web 2.0技术的发展,微博已经成为了继博客之后,一种新的交流共享平台。由此,基于微博的线上交友逐渐成为了一种流行的交友方式,用户可以利用它将现实生活中的人际关系搬至网络,也能建立单纯的线上好友关系。然而,随着社交网站用户呈现爆炸式的增长,如何为用户寻找合适的好友成为了基于社交网络的好友推荐需解决的重要问题。
目前,个性化推荐系统中常用的推荐技术主要有基于内容的推荐,协同过滤推荐,及关联规则推荐等[1]。其中基于关联规则的个性化推荐技术[2]具有能够发现用户的新兴趣点、无需领域知识和可实现“跨类型”的推荐等优点,在电子商务等领域得到了广泛应用。本文基于现有推荐技术,对目前关联规则好友推荐算法存在的规则挖掘效率较低及推荐有效性不高的问题展开进一步研究。
1相关工作
针对关联规则个性化推荐的研究主要围绕三个方面进行:1)个性化推荐关联规则算法的研究;2)推荐模型及策略等方面的研究;3)减少挖掘产生的冗余规则研究。其中对于关联规则算法的研究成为了当前研究的重点[3]。如文献[4]通过考虑各项目的重要程度,对关联规则算法进行改进。文献[5]提出了针对新兴趣点发现的协作算法。文献[6]首先利用模糊聚类进行数据预处理,在此基础上再进行频繁项集的挖掘。
根据不同的应用场景,基于关联规则的个性化推荐策略研究同样也是一个重要的研究领域。如文献[7]对面向大规模定制的个性化推荐的相关特性进行分析,提出了面向不同客户群体的关联规则个性化模型。文献[8]以电子商务为应用背景,提出了一套个性化的电子商务推荐系统。
针对基于社交网络的好友推荐,其推荐策略主要围绕两个方面展开:一方面是以用户间的关系作为推荐依据进行好友推荐[9-11];另一方面则是根据用户的社交资料或发布的相关消息,从中提取用户的兴趣倾向,推荐兴趣相似的好友[12-14]。本文以新浪微博好友推荐作为应用背景,首先针对规则挖掘效率较低的不足,通过基于位图的数据格式,引入散列优化技术,并利用相关性质删除无关候选项,对其进行了改进。其次,为提升关联规则好友推荐的准确性,围绕以用户间关系为主的推荐策略进行研究,通过计算用户的出相似度和入相似度,推荐与用户具有共同兴趣且微博社交关系较为相似的好友。在此基础上,结合信任度计算,使好友推荐在推荐结果的有效性方面有更进一步的提升。
2关联规则算法及改进
2.1关联规则算法
Apriori算法是一种逐层搜索的算法,该算法的基本思想是:首先通过预先设定的最小支持度和相关性质找出所有的频繁项集,由得到的频繁项集产生强关联规则。最后由设定的最小置信度,从结果中筛选出可信度较高的,形如:x→y的强关联规则,相关定义如下:
定义1设I={i1,i2,…,in}为项目的集合;D为所有事务的集合;{Tid, T}代表一个事务, T={i1,i2,…,ik}为某事务包含的项目集,每个事务有对应的标识符Tid。其中:TI,DI。
定义2包含k个项目的集合称为k项集,其中支持度计数为包含某k项集Ik的事务数,记为:Sup(Ik)。
定义3给定D和最小支持度min_sup,对IkI,若Sup(Ik) ≥min_sup,则称Ik为频繁k项集。
传统的Apriori算法存在如下不足:
1)在剪枝策略上,需要对数据集进行多次遍历;2)挖掘频繁项集的同时,会产生大量无关候选项占用系统资源等。
针对这些问题,本文提出了基于散列及位图的改进关联规则算法BHA(Bitmap and Hashing Algorithm),主要从降低数据集的遍历次数、压缩无关候选项占用的系统资源两方面进行改进。
文档评论(0)