- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于DeepWalk社团检测方法
基于DeepWalk社团检测方法
摘要:该文提出一种基于DeepWalk的网络社团检测方法。该算法的基本思想是基于图嵌入的DeepWalk方法,利用网络随机游走的方式,把网络结构映射到欧氏空间中,然后利用经典机器学习聚类算法进行聚类,从而得到社团。该文在具有社团标签的网络中进行实验,从实验中验证了这种思想的可行性,取得了显著的效果。
关键词:DeepWalk;社团检测;聚类
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)04-0168-02
1 概述
伴随着网络技术和计算机科学的技术高速发展,尤其是智能手机兴起与快速普及,使人类已经步入了一个全新的网络时代。在人们生活的方方面面,随处可见复杂网络的身影,如科学家之间的合作网络,国家电力网络,电信通讯网络等等。因此,近几年,复杂网络的研究价值和应用价值越来越受到学术界和工业界的认可与重视。
随着对网络拓扑性质的深入研究,人们发现在许多的网络结构中都能挖掘出一种共同的性质:社团结构。这种结构在我们生活中也随处可见,比如在社交关系中,如果来自同一个学校或者公司,那么这群人的连接也会比来自其他学校或者公司的一群人联系更加紧密。社团结构与计算机科学中的图分割和社会学中的分级聚类有着密不可分的关系。[1]分级聚类是基于各个节点连接的相似性或强度将网络划分各个子群,且根据划分时往网络中添加还是移除边可分为凝聚算法和分裂算法两类,其中应用非常广泛的是Girvan和Newman提出的基于边介数的分裂算法[2]和Breiger等人提出的Concor算法[3];图形分割最有名的算法是Kernighan-lin算法[4]和谱方法法[5]。
本文不同于之前的算法研究,提出一种基于DeepWalk的方法进行社团检测,将网络映射到欧氏空间中,然后利用机器学习的聚类方法进行聚类得到社团。
本文首先介绍deepwalk和机器学习中常见的聚类算法,并通过实验来验证本文提出算法的可行性,最后是本文结论。
2 相关研究
2.1 社团检测算法
网络的社团结构具有同一社团内部节点连接紧密,不同的社团节点连接稀疏[5]的属性,而社团检测方法旨在揭示出网络中真实存在的社团结构。社团检测通常使用Newman提出的Modularity[5]来衡量算法的,Modularity(常用Q表示)通常定义为:
其中,表示网络社团个数,表示网络连接总数,表示社团内连接总数,表示社团内节点度之和。
近年来随着复杂网络社团检测的研究发展,社团检测算法大致可以分为以下三类[6]:1)基于优化的划分方法,主要分为谱方法[5,7]和局部搜索方法。2)启发式方法。如最大流社团算法[8]、Newman算法(grivan newman,GN)等。3)其他划分方法。如基于随机游走的相似度算法[9]和节点聚类中心度算法[10]等。
2.2 DeepWalk
我们传统表示网络是基于图挽留表示方式。比如我们可以用一个G=(V,E)来定义一个网络,V是网络中的节点集合,E是网络中的边集合。我们用不同的符号命名不同的节点,用二维数组或者邻接矩阵来存储网络的连边情况。当我们使用邻接矩阵记录网络拓扑的时候就可以利用线性代数的一些概念去解决网络中的一些问题。但是缺点也很明显,如果网络是一个稀疏的网络,那么会浪费大量的存储空间。
所以现在提出一种网络表示学习(Network Representation Learning, NRL),也称图嵌入法(Graph Embedding Method, GEM)的方式来表达网络。这种方法的思想是用一种向量表示网络中的节点。
DeepWalk[11]借用了NLP的方法,利用SkipGram的方法进行网络中节点的表示学习。按照SkipGram的思路,我们需要解决的就是如果定义“文本内容”,也就是“邻居”。在自然语言处理里面,单词的邻居就是周围的单词,而在DeepWalk是用随机游走的序列来作为网络节点的邻居。
具体步骤:首先随机游走随机均匀地选取网络节点,并生成固定长度的游走序列。这个游走序列就相当于自然语言中的句子,节点的序列是句子,而序列中的节点就是句子中的单词,然后将这个生成的序列放入SkipGram进行训练得到模型。
2.3 聚类算法
聚类分析也叫群分析,其主要研究分类问题的一种基于统计分析方法,在数据挖掘中也有重要的应用。
聚类算法主要思想是依据某种特定的标准(比如数据之间的距离)把一个数据集划分为不同的类或者簇,使内部的数据具有较高的相似性,而不同簇的数据之间差异较大。较通俗的解释就是让相似的数据尽可以聚集在一起,不同的数据相距更远,从而可以清晰划分数据的类。常见的算
文档评论(0)