- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
社会网络中的社团挖掘问题
社团结构挖掘研究现状
¢? 现有的社团挖掘算法主要分为两类:计算机科学中的图形分割算法
和社会学中的分级聚类算法。
¢? 图像分割算法主要包括 Kernighan-Lin 算法、谱平分法、派系过
滤算法等;
¢? 分级聚类算法是寻找社会网络中社团结构的一类传统算法,它基于
各个节点之间连接的相似性,把网络自然地划分为各个子群,根据
加边或者去边,该类算法又可以分为两类:分裂方法和凝聚算法。
¢? 从其他不同的角度分析社团结构的算法还包括:基于相似度度量的
凝聚算法、基于信息论的算法、基于矩阵分解的算法、最大化模块
性的算法等。
社团结构的定义
¢? 网络社团结构的定义有多种,最为常见的定义有两种:一种是基于
网络节点的相对连接频数,另一种是以网络连通性为评判标准。
¢? 根据节点的相对连接频数将网络中的节点划分为不同的社团时,网
络呈现出社团内连接稠密而社团间连接稀疏的特点。
¢? 一般来讲,有强社团和弱社团两种定义:强社团是指子图H中任何
一个节点与H内部节点连接的度大于其与H外部节点连接的度;弱社
团是指子图H中所有节点与H内部节点的度之和大于H中所有节点和
H外部节点连接的度之和。
社团结构的定义
¢? 以连通性为标准定义的社团也称为派系,一个派系是指由 3 个或者
3 个以上的节点组成的全连通子图,即任何两个节点之间均有连接。
在社团的各种定义中,派系的定义最为严格,但是也可以通过弱化
连接条件进行拓展,形成 n-派系,这里的n是指子图中的任意两
个节点之间不必直接相连,但最多通过n-1 个节点能够连通。
¢? 上述两种方法均可以用于定义社团,但是基于网络连通性的定义方
式允许社团间存在重叠性。
经典检验网络
¢? 目前用于检验和比较的经典网络主要有两类:人造网络和实际网络。
¢? 常用的人造网是由128个节点构成的网络,该网络包含4个社团,
每个社团内部包含32个节点。
¢? 人造网的检验虽然在一定程度上验证了划分算法的有效性,但是由
于人们比较感兴趣的网络大多是实际网络,因此仍需要用实际网络
对划分算法进行进一步的检验。选择用作检验的实际网络时,需要
注意一下三点:
¢? 1)保证构建网络的数据是方便易得的;
¢? 2)保证网络有实际的意义,从而可以判断社团划分的结果是否具
有可解释性;
¢? 3)为了方便不同划分算法之间的比较,宜采用已被广泛使用的实
际网络。
经典检验网络
¢? 空手道俱乐部网络也称为Zachary网络,是检验不同社团发现算
法的一个经典实际网络。
¢? 其它比较常用的实际网络有:①美国大学橄榄球比赛网;②物
理学家合作网;③桑塔菲研究所科学家合作网;④经济学家合
作网。
常见社团挖掘方法
¢? K-means 算法
¢? Kernighan-Lin算法
¢? 谱平分法
¢? 基于NMF的聚类算法
¢? 派系过滤算法
¢? 分裂算法
¢? 凝聚算法
K-MEANS 算法
¢? k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使
用的社团聚类算法。它是将各个聚类子集内的所有数据样本的均
值作为该聚类的代表点。
¢? 算法的主要思想是通过迭代过程把数据集划分为不同的类别, 使
得评价聚类性能的准则函数达到最优,从而使生成的每个聚类类
内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于
连续型具有较好的聚类效果。
对数据集进行k-means聚类时包括如下三个要点:
(1)选定某种距离作为数据样本间的相似性度量
¢? k-means聚类算法在计算数据样本之间的距离时,可以根据实际
需要选择欧式距离、曼哈顿距离中的一种来作为算法的相似性
度量,其中最常用的是欧式距离。
¢? 假设给定的数据集 X={x1,x2,x3xm},X中的样本用n个描述属
性w1,w2…wd来表示,并且n个描述属性都是连续型属性。数据样
本xi=(wi1,wi2,…win), xj=(wj1,wj2,…wjn)其中,wi1,wi2,…win
和wj1,wj2,…wjn分别是样本xi和xj对应n个描述属性W1,W2,…Wn的
具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)
来表示,距离越小,样本xi和xj越相似,差异度越小;距离越大,
样本xi和xj越不相似,差异度越大。
(2)选择评价聚类性能的准则函数
¢? k-means聚类算法使用误差平方和准则函数来评价聚类性能。
给定数据集X,其中只包含描述属性,不包含类别属性。假设X 包含k个聚类子集X1,X2,…XK;各个聚类子集中的样本数量分别
为n1,n2,…,nk;各个聚类子集的均值代表点(也称聚类中心)
分别为m1,m2,…,mk。
则误差平方和准则函数公式为:
(3)相似度的计算根据一个聚类中对象的平均值
您可能关注的文档
最近下载
- 第十七章外阴色素减退性疾病.ppt VIP
- 考研真题 三峡大学水利与环境学院820数据库原理与应用历年考研真题汇编.docx VIP
- 中石化油品储运鉴定试题库——初 级 工.pdf VIP
- 探测器安装工程检验批质量验收记录表.docx VIP
- 2025上海松江区工作者招聘76人考试备考题库及答案解析.docx VIP
- 中国全面发育迟缓诊断指南2024解读PPT课件.pptx VIP
- 2020年国考公务员考试《行测》真题及答案(地市级).pdf VIP
- 试算法计算调洪演算程序.xls VIP
- 小学英语教学中分层次教学的实践探讨教学研究课题报告.docx
- 智能化弱电系统培训资料,大量系统图与实例图.pdf VIP
文档评论(0)