- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于微博媒体社区发现技术探究
基于微博媒体社区发现技术探究 第3卷第6期2013年12月智 能 计 算 机 与 应 用INTELLIGENT COMPUTER AND APPLICATIONSVol.3 No.6Dec.2013
摘要:微博社交网络是由节点构成的,每个节点代表一个微博用户。节点与节点间存在着关系,因此连接紧密的节点形成了社区。如何从微博社交网络中挖掘出社区,已成为Web2.0的团体挖掘研究热点。详细介绍了传统的网络团体挖掘算法,并提出了一种新的社区发现的算法,称为基于用户兴趣的社区发现算法。该算法不论在计算效率还是社区发现效果上比传统算法都具有明显的提升,取得了不错的实验效果。
关键词:社区发现; 团体挖掘; 用户兴趣; 微博网络
中图分类号:TP3934 文献标识码:A文章编号:2095-2163(2013)06-0074-04
0引言
微博作为一种新兴的社交媒体,其作为媒体平台的影响力已经远超传统的网页、博客等媒体的作用力。例如:全球最大的社交网站Facebook的用户数已经超过10亿,Twitter的用户数也已经超过5亿。中国最大的社交网站平台新浪微博注册用户数也已超5亿,日活跃用户数可达4 900多万,用户日发微博则已超过1亿条。随着Web2.0的迅猛发展,用户之间存在了交互,有的用户之间连接紧密、有的用户之间连接稀疏,这就形成了虚拟社区。因此在复杂网络中,挖掘团体(圈子)已经成为时下的研究热点。
本文先对传统社区发现算法进行了介绍,针对微博媒体的特点,提出了一种结合用户兴趣的社区发现算法,同时对算法进行了详细介绍,其后通过实验证实了算法的有效性。
1社区发现的相关研究
1.1谱平分法(Spectral Bisection)[1-2]
谱平分法是一种基于图分割(Graph Partitioning)的社区划分算法,其基本原理是求解基于图的Laplace矩阵的特征向量。该算法在理论上已经得到证明,非零特征值所对应的特征向量中,被划分到同一社区中的节点是近似相等的。并且在已知社区为两个社区结构时,也取得了不错的效果。
但是,在微博社交网络中,却也存在着明显的不足。微博关系网络不可能只存在两个社区结构,因此,谱平分法并不能很好地解决微博社交网络的社区划分问题。
1.2W-H算法[3]
相对于谱平分法这一类传统的图分割算法,即只能将一个网络结构划分为两个社区的问题,Wu和Huberman提出了一种快速谱平分法[3],称之为W-H算法[4]。W-H算法解决了谱平分法只能将社区结构划分为两个团体的问题,该算法在不考虑整个网络社区结构的情况下,可以求解一个已知节点所在的网络社区结构,而无需计算所有社区。但如果W-H算法并不知道网络社区结构的部分信息,则很难应用该算法进行社区结构的划分。
1.3GN算法[5]
GN算法是由Girvan和Newman于2001年提出的社区划分算法,该算法现已成为经典的社区划分算法。对微博社交网络来说,最基本的要求就是自然分割,而无需预先确定网络社区的个数以及社区的大小。这是基于一种分裂思想的社区划分算法。其基本原理就是不断地从网络中移除介数(Betweenness)最大的边。边介数则定义为网络中经过每条边的最短路径的数目[6]。GN算法的优点表现在,可以将网络分裂成任意数量的社区,还可以从算法的树状图查看网络社区结构形成的动态过程,如图1所示。
GN算法由网络整体的全局结构出发进行社区识别[7],避免了传统算法的众多缺点,业已成为目前实现网络社区分
析的标准算法,因而得到了广泛的应用。但GN算法也存在着两个不足,首先,该算法不能确定最后要分解的社区数目。其次,算法的计算效率不佳,最差的时间复杂度为O(m2*n)[7],其中m,n分别为网络中的边及节点的数目。
1.4CNM算法
CNM社区发现算法[8]作为一种凝聚思想的团体挖掘算法,由Clauset、Newman等人所提出。该算法以模块度为度量标准,每次都沿着模块度更新最大的方向进行合并。这是一种基于贪心策略的算法,在时间复杂度方面相当于线性时间的复杂度,并已经广泛应用在大型网络的计算中[6]。
本文的实验部分即利用CNM算法与本文提出的基于用户兴趣的社区发现算法[3]进行了对比。
1.5其他社区发现的算法
在最近的社会网络研究中,还有学者提出了一些新的算法。
例如,Radicchi[7]等人给出了边聚类系数(Edge Clustering Co-Efficient)的定义,并以此为基础给出了快速的Radicchi算法[9]。该算法与GN算法的效果相当,但是速度却有了较大提升。
在很多情况下,社区很难实现独立划分,为解决这种相互
文档评论(0)