08-社会网络分析与算法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
社会网络中的社团挖掘问题 社团结构挖掘研究现状 ¢? 现有的社团挖掘算法主要分为两类:计算机科学中的图形分割算法 和社会学中的分级聚类算法。 ¢? 图像分割算法主要包括 Kernighan-Lin 算法、谱平分法、派系过 滤算法等; ¢? 分级聚类算法是寻找社会网络中社团结构的一类传统算法,它基于 各个节点之间连接的相似性,把网络自然地划分为各个子群,根据 加边或者去边,该类算法又可以分为两类:分裂方法和凝聚算法。 ¢? 从其他不同的角度分析社团结构的算法还包括:基于相似度度量的 凝聚算法、基于信息论的算法、基于矩阵分解的算法、最大化模块 性的算法等。 社团结构的定义 ¢? 网络社团结构的定义有多种,最为常见的定义有两种:一种是基于 网络节点的相对连接频数,另一种是以网络连通性为评判标准。 ¢? 根据节点的相对连接频数将网络中的节点划分为不同的社团时,网 络呈现出社团内连接稠密而社团间连接稀疏的特点。 ¢? 一般来讲,有强社团和弱社团两种定义:强社团是指子图H中任何 一个节点与H内部节点连接的度大于其与H外部节点连接的度;弱社 团是指子图H中所有节点与H内部节点的度之和大于H中所有节点和 H外部节点连接的度之和。 社团结构的定义 ¢? 以连通性为标准定义的社团也称为派系,一个派系是指由 3 个或者 3 个以上的节点组成的全连通子图,即任何两个节点之间均有连接。 在社团的各种定义中,派系的定义最为严格,但是也可以通过弱化 连接条件进行拓展,形成 n-派系,这里的n是指子图中的任意两 个节点之间不必直接相连,但最多通过n-1 个节点能够连通。 ¢? 上述两种方法均可以用于定义社团,但是基于网络连通性的定义方 式允许社团间存在重叠性。 经典检验网络 ¢? 目前用于检验和比较的经典网络主要有两类:人造网络和实际网络。 ¢? 常用的人造网是由128个节点构成的网络,该网络包含4个社团, 每个社团内部包含32个节点。 ¢? 人造网的检验虽然在一定程度上验证了划分算法的有效性,但是由 于人们比较感兴趣的网络大多是实际网络,因此仍需要用实际网络 对划分算法进行进一步的检验。选择用作检验的实际网络时,需要 注意一下三点: ¢? 1)保证构建网络的数据是方便易得的; ¢? 2)保证网络有实际的意义,从而可以判断社团划分的结果是否具 有可解释性; ¢? 3)为了方便不同划分算法之间的比较,宜采用已被广泛使用的实 际网络。 经典检验网络 ¢? 空手道俱乐部网络也称为Zachary网络,是检验不同社团发现算 法的一个经典实际网络。 ¢? 其它比较常用的实际网络有:①美国大学橄榄球比赛网;②物 理学家合作网;③桑塔菲研究所科学家合作网;④经济学家合 作网。 常见社团挖掘方法 ¢? K-means 算法 ¢? Kernighan-Lin算法 ¢? 谱平分法 ¢? 基于NMF的聚类算法 ¢? 派系过滤算法 ¢? 分裂算法 ¢? 凝聚算法 K-MEANS 算法 ¢? k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使 用的社团聚类算法。它是将各个聚类子集内的所有数据样本的均 值作为该聚类的代表点。 ¢? 算法的主要思想是通过迭代过程把数据集划分为不同的类别, 使 得评价聚类性能的准则函数达到最优,从而使生成的每个聚类类 内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于 连续型具有较好的聚类效果。 对数据集进行k-means聚类时包括如下三个要点: (1)选定某种距离作为数据样本间的相似性度量 ¢? k-means聚类算法在计算数据样本之间的距离时,可以根据实际 需要选择欧式距离、曼哈顿距离中的一种来作为算法的相似性 度量,其中最常用的是欧式距离。 ¢? 假设给定的数据集 X={x1,x2,x3xm},X中的样本用n个描述属 性w1,w2…wd来表示,并且n个描述属性都是连续型属性。数据样 本xi=(wi1,wi2,…win), xj=(wj1,wj2,…wjn)其中,wi1,wi2,…win 和wj1,wj2,…wjn分别是样本xi和xj对应n个描述属性W1,W2,…Wn的 具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj) 来表示,距离越小,样本xi和xj越相似,差异度越小;距离越大, 样本xi和xj越不相似,差异度越大。 (2)选择评价聚类性能的准则函数 ¢? k-means聚类算法使用误差平方和准则函数来评价聚类性能。 给定数据集X,其中只包含描述属性,不包含类别属性。假设X 包含k个聚类子集X1,X2,…XK;各个聚类子集中的样本数量分别 为n1,n2,…,nk;各个聚类子集的均值代表点(也称聚类中心) 分别为m1,m2,…,mk。 则误差平方和准则函数公式为: (3)相似度的计算根据一个聚类中对象的平均值

文档评论(0)

LF20190802 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档