基于自适应仿射传播聚类的社团发现求解.docVIP

下载本文档

1
0
约3.83千字
约 7页
2017-03-06 发布于北京
举报
版权申诉

基于自适应仿射传播聚类的社团发现求解.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于自适应仿射传播聚类的社团发现求解.doc

基于自适应仿射传播聚类的社团发现求解摘要：本文对复杂网络的社团发现问题进行研究，分析社团发现问题和聚类问题的相似性，使用自适应仿射传播聚类算法对社团发现问题进行求解，给出了算法的实例，针对算法中的不同参数进行测试比较。结果表明算法具有较好的准确率和运行效率。关键词：复杂网络；社团发现；自适应仿射传播一、引言复杂网络是复杂系统研究的重要领域，取得了大量的研究成果[1-3]。网络结构的社团划分是复杂网络新的研究方向。复杂网络的社团可以定义为网络中的一组节点，组内节点之间具有较高的相似度，组间节点具有较低的相似度[4]。社团结构通常对应于网络中的某一功能单元，例如，万维网中不同社团代表不同主题的网页[5]；引文网中不同社团代表了不同的研究领域[6]。根据社团发现过程中社团形成方式的不同，社团发现大体可以分成四类过程：凝聚过程、分裂过程、搜索过程和其他过程。凝聚过程将网络中每一个定点设为一个社团，使用设定的度量标准，将相似度高的或相近的社团合并，重新计算，直到所有定点聚集成一个社团。分裂过程与凝聚过程相反，从所有定点组成的大社团出发，进行分裂，直到每个节点组成一个社团。搜索过程是一个逐步优化目标的过程。其他方法主要有谱分析等。本文使用自适应仿射传播聚类[7]方法求解社团发现问题，相比传统聚类方法，该方法不需要事先指定分类的个数且具有较快的运行速度。二、基本定义社团：目前为止，关于社团还没有统一的定义。比较常用的有基于链接频度的定义，网络分组后，即组内的链接稠密，组间的链接稀疏。还有基于连通性的定义，即将全连通子图定义为派系，所以也被称为基于派系的定义，派系的定义也可以通过放宽路径长度进行弱化。上述两个定义都是定性的定义，实践中还有定量的定义，比如使用Girvan和Newman定义的模块化函数来定义社团。聚类算法：聚类是一个将数据集分类的过程，是数据挖掘领域中使用的技术，用于发现大规模数据中隐藏的模式和规律。聚类方法融合了多种技术，其应用领域也已超出了数据挖掘的范围。聚类分析所解决的问题与社团发现问题具有相似的特性，所以社团结构也可以被称为复杂网络中的聚类。聚类分析的理论和技术可以应用到复杂网络社团发现求解的问题中。相似度：相似度是两个节点属性相似的程度。对于网络中的节点a和b，当以b为聚类中心时，a和b的相似度记为S（a，b）。相似度可以是对称的，即S（a，b） S（b，a），也可以是不对称的，即二者不等。一般可以使用欧式距离来定义相似度，比如。将相似度定义为负值，是因为较大的负值说明二者的距离较小，方便程序的计算。参考度：节点成为聚类中心的可能性定义为参考度。参考度越大，节点作为聚类中心的可能性也越大。节点a的参考度记为P（a）或S（a，a）。参考度的值会影响聚类的数量，也就是所划分出的社团的数量。如果初始时对中心点没有任何限制，可以取所有点的参考度相等，如果取输入适应度的中值，则社团数量中等。吸引度：描述使用节点k作为节点i的聚类中心的适合程度，记为R（i，k），为从节点k发送到节点i的消息。归属度：描述节点i选择节点k作为聚类中心的适合程度，记为A（i，k），为从节点i向节点k发送的消息。阻尼系数：用来控制迭代过程中的收敛，阻尼系数取不同值时，迭代过程的收敛和振荡过程也不同。三、聚类方法自适应仿射传播聚类根据输入数据点之间的相似度进行聚类。设输入N个数据点，可以将输入数据点的相似度表示成N×N的矩阵S，S中的值S（i，j）为上面定义的相似度。与传统的聚类方法不同，算法不需要指定生成聚类的数量，而是使用所有输入点作为起始聚类，进行求解。相似度矩阵对角线上的值S（k，k）为前面定义的适应度。本文使用节点输入相似度的中值作为适应度的初始值。算法运行过程中传递两种类型的消息，吸引度和归属度。吸引度和归属度也以矩阵的形式表示。吸引度大说明节点作为聚类中心的可能性大，归属度大说明节点选择对应节点为聚类中心的可能性大。自适应仿射传播聚类算法迭代计算所有点的吸引度和归属度。直到产生若干个聚类中心，且所有数据点都找到聚类中心为止。吸引度和归属度如下公式计算： R（i，k） S（i，k）-max A（i，j）+S（i，j） j≠k R（k，k） P（k）-max A（k，j）+S（k，j） j≠k A（i，k） min 0，R（k，k）+ j≠i且j≠k 根据上面公式，当参考度较大使得R（k， k）较大时，计算所得的归属度A（i， k）的值相应较大，增加了k作为聚类中心的可能性；具有较大参考度值的节点越多，聚类的数量也越多。所以，初始参考度值的大小最终聚类的数量有较大的影响。自适应仿射传播聚类算法计算过程可以描述如下： 1.初始化：计算相似度矩阵S，计算参考度P。设置最大迭代次数。转步骤2。 2.