- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社团挖掘
基于模块度的社团挖掘模型
2018-3-8
社交网络
模块度的概念
模块度(modularity)
模块度是近年常用的一种
衡量社团划分质量的标准。
其定义如下:
我们已知邻接矩阵可以表示成
模块度的概念
假设整个网络被划分有限个社团,我们用Cv表示v所属的社团。那么社团内的边占所有边的比例可以表示为
上述表达式还是无法衡量社团划分质量,这时,需要引入零模型的概念。
模块度的概念
零模型
所谓一个网络对应的零模型,就是指与该网络具有某些相同的性质(如相同的边数或者相同的度分布等)而在其他方面完全随机的随即图模型。
下面我们用一个常用的零模型来定义模块度:
其中,Kv,Kw是结点v和w的度。
模块度的概念
加权和有向网络的模块度
加权
m:变为网络中所有边的权值之和;
Avw:变为v和w的边的权值;
Kv,Kw:变为v和w的强度,即所有相连边的权值之和。
有向
m:意义不变;
Avw:变为v和w的有向邻接矩阵;
Kv,Kw:变为v的出度和w的入度。
基于模块度的社团挖掘
模块度的最大值的求解已经被证明是NP难题,下面给出一种基于贪婪算法思想的社团结构检测算法。
CNM算法(Clauset, Newman, Moore)
为了简化算法的描述,我们定义如下2个量:
其含义是连接社团i和社团j的边的数目所占比例;
含义是至少一端在社团i中的边的数目所占比例。
基于模块度的社团挖掘
这样,我们可以将模块度的定义式化简如下:
基于模块度的社团挖掘
算法过程
初始化
假设每个节点就是一个独立的社团,模块度值Q=0,并且
这样得到初始的模块度增量矩阵,将其每一行的最大值提出来构成最大堆H。
基于模块度的社团挖掘
迭代更新
从最大堆H中求出最大的 ,合并响应的社团i和社团j,标记合并后的社团为j,并更新 , ,H及aj。
更新过程:
1.
基于模块度的社团挖掘
2. 更新模块度值Q = Q + ;
3. 更新最大堆H相应的行最大值;
4. 更新aj
算法结束判定
当模块度增量矩阵中最大元素小于零或者网络中所有的结点都归到一个社团内,算法终止。
基于模块度的社团挖掘
可以证明,整个算法的复杂度为
右图是来自对Amazon
上商品之间的关系构成
的一个包含409687个
节点和2464630条边
的网络社团挖掘结果。
模块度最大值0.745,
对应1684个社团。
Thank you!
文档评论(0)