网站大量收购独家精品文档,联系QQ:2885784924

基于自适应仿射传播聚类的社团发现求解.docVIP

基于自适应仿射传播聚类的社团发现求解.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于自适应仿射传播聚类的社团发现求解.doc

基于自适应仿射传播聚类的社团发现求解 摘 要:本文对复杂网络的社团发现问题进行研究,分析社团发现问题和聚类问题的相似性,使用自适应仿射传播聚类算法对社团发现问题进行求解,给出了算法的实例,针对算法中的不同参数进行测试比较。结果表明算法具有较好的准确率和运行效率。 关 键 词:复杂网络;社团发现;自适应仿射传播 一、引言 复杂网络是复杂系统研究的重要领域,取得了大量的研究成果[1-3]。网络结构的社团划分是复杂网络新的研究方向。复杂网络的社团可以定义为网络中的一组节点,组内节点之间具有较高的相似度,组间节点具有较低的相似度[4]。社团结构通常对应于网络中的某一功能单元,例如,万维网中不同社团代表不同主题的网页[5];引文网中不同社团代表了不同的研究领域[6]。 根据社团发现过程中社团形成方式的不同,社团发现大体可以分成四类过程:凝聚过程、分裂过程、搜索过程和其他过程。凝聚过程将网络中每一个定点设为一个社团,使用设定的度量标准,将相似度高的或相近的社团合并,重新计算,直到所有定点聚集成一个社团。分裂过程与凝聚过程相反,从所有定点组成的大社团出发,进行分裂,直到每个节点组成一个社团。搜索过程是一个逐步优化目标的过程。其他方法主要有谱分析等。本文使用自适应仿射传播聚类[7]方法求解社团发现问题,相比传统聚类方法,该方法不需要事先指定分类的个数且具有较快的运行速度。 二、基本定义 社团:目前为止,关于社团还没有统一的定义。比较常用的有基于链接频度的定义,网络分组后,即组内的链接稠密,组间的链接稀疏。还有基于连通性的定义,即将全连通子图定义为派系,所以也被称为基于派系的定义,派系的定义也可以通过放宽路径长度进行弱化。上述两个定义都是定性的定义,实践中还有定量的定义,比如使用Girvan和Newman定义的模块化函数来定义社团。 聚类算法:聚类是一个将数据集分类的过程,是数据挖掘领域中使用的技术,用于发现大规模数据中隐藏的模式和规律。聚类方法融合了多种技术,其应用领域也已超出了数据挖掘的范围。聚类分析所解决的问题与社团发现问题具有相似的特性,所以社团结构也可以被称为复杂网络中的聚类。聚类分析的理论和技术可以应用到复杂网络社团发现求解的问题中。 相似度:相似度是两个节点属性相似的程度。对于网络中的节点a和b,当以b为聚类中心时,a和b的相似度记为S(a,b)。相似度可以是对称的,即S(a,b) S(b,a),也可以是不对称的,即二者不等。一般可以使用欧式距离来定义相似度,比如。将相似度定义为负值,是因为较大的负值说明二者的距离较小,方便程序的计算。 参考度:节点成为聚类中心的可能性定义为参考度。参考度越大,节点作为聚类中心的可能性也越大。节点a的参考度记为P(a)或S(a,a)。参考度的值会影响聚类的数量,也就是所划分出的社团的数量。如果初始时对中心点没有任何限制,可以取所有点的参考度相等,如果取输入适应度的中值,则社团数量中等。 吸引度:描述使用节点k作为节点i的聚类中心的适合程度,记为R(i,k),为从节点k发送到节点i的消息。 归属度:描述节点i选择节点k作为聚类中心的适合程度,记为A(i,k),为从节点i向节点k发送的消息。 阻尼系数:用来控制迭代过程中的收敛,阻尼系数取不同值时,迭代过程的收敛和振荡过程也不同。 三、聚类方法 自适应仿射传播聚类根据输入数据点之间的相似度进行聚类。设输入N个数据点,可以将输入数据点的相似度表示成N×N的矩阵S,S中的值S(i,j)为上面定义的相似度。与传统的聚类方法不同,算法不需要指定生成聚类的数量,而是使用所有输入点作为起始聚类,进行求解。相似度矩阵对角线上的值S(k,k)为前面定义的适应度。本文使用节点输入相似度的中值作为适应度的初始值。算法运行过程中传递两种类型的消息,吸引度和归属度。吸引度和归属度也以矩阵的形式表示。吸引度大说明节点作为聚类中心的可能性大,归属度大说明节点选择对应节点为聚类中心的可能性大。自适应仿射传播聚类算法迭代计算所有点的吸引度和归属度。直到产生若干个聚类中心,且所有数据点都找到聚类中心为止。 吸引度和归属度如下公式计算: R(i,k) S(i,k)-max A(i,j)+S(i,j) j≠k R(k,k) P(k)-max A(k,j)+S(k,j) j≠k A(i,k) min 0,R(k,k)+ j≠i且j≠k 根据上面公式,当参考度较大使得R(k, k)较大时, 计算所得的归属度A(i, k) 的值相应较大, 增加了k作为聚类中心的可能性; 具有较大参考度值的节点越多,聚类的数量也越多。所以,初始参考度值的大小最终聚类的数量有较大的影响。 自适应仿射传播聚类算法计算过程可以描述如下: 1.初始化:计算相似度矩阵S,计算参考度P。设置最大迭代次数。转步骤2。 2.

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档