- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社交网络用户行为挖掘研究进展和展望
社交网络用户行为挖掘研究进展和展望
摘要:随着信息技术飞速发展,社交网络逐渐占领了人们日常交往、娱乐和购物等主要平台。因此,大量围绕社交网络展开的研究也变得非常热门.现有的围绕社交网络用户行为展开的研究热点主要有:基于社交网络用户行为的用户影响力研究、基于用户行为的推荐系统研究、以及社交网络用户隐私方面的研究等。社交网络是互联网的主要组成模块之一,同时也是大数据时代的主要数据提供者之一,未来对于社交网络的研究会越来越受到学术界以及工业界的更多投入,本文对社交网络用户行为挖掘的研究现状、热点展开了论述,并作出展望,提出了一些目前尚缺深入研究的方向,以期对读者有所帮助。
关键词:社交网络;数据挖掘;用户行为
中图分类号:文献标识码:A
1引言
建立在英特网基础之上的社交网络自诞生之日发展至今,已经逐渐变成人们情感交流、关系维护和信息沟通的主要平台和方式。活跃在各社交网站上的用户每时每刻都在产生着大量的数据,在数据就是财富的今天,社交网络已经成为学术界工业界的重点研究对象,目前对社交网络的研究与利用已经非常火热,比如用户分析,关系分析,社交搜索,网络结构、用户隐私等等方面,其中对于用户的研究是非常重要的一个方向,探索人类的行为规律一直是科学家们执着的追求,发现人的规律的重要性也是不言而喻,对于社交网络中人的行为的研究当然也包括在那当中[1]。本文以社交网络中的用户行为基本出发点,对在此基础上进行的挖掘研究进行学习及分析,从而对挖掘研究进行综述和展望。
2社交网络用户行为挖掘研究现状和研究热点
2.1基于社交网络用户行为的用户影响力研究
跟现实生活中一样,领袖的发言权往往比常人大的多,社交网络对于舆论的影响力通常也有意见领袖,其可波及的力量不可轻视。怎样去挖掘意见领袖、对社交网络的用户影响强度和单独一个用户的影响力进行分析,使用意见领袖来积极地将社会舆论引出,将新形势下的那些舆情信息所具有的分析能力进行提高,同时,也可以很迅速且准确地掌握一些社会的舆情动态,成为了社交网络正在面临的一个严肃课题和严峻的挑战。在诸如:信息学、经济学、政治学和社会学各领域里面,影响力分析被认为是一种广泛应用的研究技术。例如:推广产品和选举政治时有着重要的作用。影响力的个体一般包含了以下四个主要的特性:①容易将在自己的观点传达给其他人;②代表大多数普通人的观点;③具有新颖的观点;④也被称为舆论领袖(opinionleaders)、扩散创新理论的革新者(innovators)、网络中心(hubs)、网络桥节点(connectors)、专家(mavens)等。社会影响力(socialinfluence)指的是,个人行为可以直接或者间接地去影响到其他人的行为、思想和情感。在文献[2]中给出了社交网络影响力(influence)的定义,其大概地意义是指的用户的行为因受到其他用户的影响而发生了变化,在社交网络中影响力是一种常见的现象。
我们可以把影响力的强度看做是用户之间一种相互影响的能力大小,以往我们在度量影响力强度的时候往往仅将两个网络节点的共同邻居个数纳入考虑,然后,考虑到网络中个体行为与话题的各种特征,主要使用了统计学和机器学习的方法来计算个体的影响强度(各类别话题之间)。统计学和机器学习的方法主要是以用户之间的互相影响力为基础,假设用户之间的影响力是一个隐形变量,并且通过一些数学迭代方法来建立学习模型求解该隐形变量。但是该方法忽略了个体之间如果相隔的时间间隔等特性,如相似性高的不同个体之间一般是有较高的影响力,个体之间具有的时间间隔如果越短,那么影响强度就越大。以下是对个体影响力的计算技术研究进行了一个比较详细的介绍。
目前计算社交网络用户影响力强度的算法大多都是以PageRank算法思想为核心。PageRank算法是一种基于马尔科夫的思想模拟用户怎样浏览网页的各种行为,计算的式子如式2-1所示,其中,M是网络转移的矩阵,为网络中各节点影响力的得分向量,e为自重启的向量,α为跳转的一个因子。
ε=αMTε+(1-α)1ne,e=(1,1,…,1)T(2-1)
PageRank算法主要还是考虑到节点传播的影响力,须要不断地进行迭代计算,但是,它却忽视了各节点所存在的自身的特征,用户的各行为在社交网络中往往相互交织,尤其是当用户的数量变得非常巨大的时候,这个时候整体的复杂度就变的相当之高,在对社交网络的各用户影响力的研究时,考虑到了用户个体之间的不同特征,于是便改进了公式2-1得到如下公式2-2:
ε=αMTε+(1-α)r(2-2)
经过改进,个性化向量r取代了自重启向量e,r的含义是用户对话题类型的各种偏好的程度、信息的敏感程度以及新颖程度等。Hui等人[5]在分析社交网络
文档评论(0)