08-社会网络分析与算法研究.doc

下载文档 降价啦

17
0
约1.21万字
约 57页
2020-04-29 发布于江苏
举报
版权申诉
保障服务

08-社会网络分析与算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

社会网络中的社团挖掘问题社团结构挖掘研究现状￠? 现有的社团挖掘算法主要分为两类：计算机科学中的图形分割算法和社会学中的分级聚类算法。￠? 图像分割算法主要包括 Kernighan-Lin 算法、谱平分法、派系过滤算法等；￠? 分级聚类算法是寻找社会网络中社团结构的一类传统算法，它基于各个节点之间连接的相似性，把网络自然地划分为各个子群，根据加边或者去边，该类算法又可以分为两类：分裂方法和凝聚算法。￠? 从其他不同的角度分析社团结构的算法还包括：基于相似度度量的凝聚算法、基于信息论的算法、基于矩阵分解的算法、最大化模块性的算法等。社团结构的定义￠? 网络社团结构的定义有多种，最为常见的定义有两种：一种是基于网络节点的相对连接频数，另一种是以网络连通性为评判标准。￠? 根据节点的相对连接频数将网络中的节点划分为不同的社团时，网络呈现出社团内连接稠密而社团间连接稀疏的特点。￠? 一般来讲，有强社团和弱社团两种定义：强社团是指子图H中任何一个节点与H内部节点连接的度大于其与H外部节点连接的度；弱社团是指子图H中所有节点与H内部节点的度之和大于H中所有节点和 H外部节点连接的度之和。社团结构的定义￠? 以连通性为标准定义的社团也称为派系，一个派系是指由 3 个或者 3 个以上的节点组成的全连通子图，即任何两个节点之间均有连接。在社团的各种定义中，派系的定义最为严格，但是也可以通过弱化连接条件进行拓展，形成 n－派系，这里的n是指子图中的任意两个节点之间不必直接相连，但最多通过n－1 个节点能够连通。￠? 上述两种方法均可以用于定义社团，但是基于网络连通性的定义方式允许社团间存在重叠性。经典检验网络￠? 目前用于检验和比较的经典网络主要有两类：人造网络和实际网络。￠? 常用的人造网是由128个节点构成的网络，该网络包含4个社团，每个社团内部包含32个节点。￠? 人造网的检验虽然在一定程度上验证了划分算法的有效性，但是由于人们比较感兴趣的网络大多是实际网络，因此仍需要用实际网络对划分算法进行进一步的检验。选择用作检验的实际网络时，需要注意一下三点：￠? 1）保证构建网络的数据是方便易得的；￠? 2）保证网络有实际的意义，从而可以判断社团划分的结果是否具有可解释性；￠? 3）为了方便不同划分算法之间的比较，宜采用已被广泛使用的实际网络。经典检验网络￠? 空手道俱乐部网络也称为Zachary网络，是检验不同社团发现算法的一个经典实际网络。￠? 其它比较常用的实际网络有：①美国大学橄榄球比赛网；②物理学家合作网；③桑塔菲研究所科学家合作网；④经济学家合作网。常见社团挖掘方法￠? K-means 算法￠? Kernighan－Lin算法￠? 谱平分法￠? 基于NMF的聚类算法￠? 派系过滤算法￠? 分裂算法￠? 凝聚算法 K-MEANS 算法￠? k-means算法，也被称为k-平均或k-均值，是一种得到最广泛使用的社团聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点。￠? 算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。对数据集进行k－means聚类时包括如下三个要点：（1）选定某种距离作为数据样本间的相似性度量￠? k-means聚类算法在计算数据样本之间的距离时，可以根据实际需要选择欧式距离、曼哈顿距离中的一种来作为算法的相似性度量，其中最常用的是欧式距离。￠? 假设给定的数据集 X={x1,x2,x3xm}，X中的样本用n个描述属性w1,w2…wd来表示，并且n个描述属性都是连续型属性。数据样本xi=(wi1,wi2,…win), xj=(wj1,wj2,…wjn)其中，wi1,wi2,…win 和wj1,wj2,…wjn分别是样本xi和xj对应n个描述属性W1,W2,…Wn的具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj) 来表示，距离越小，样本xi和xj越相似，差异度越小；距离越大，样本xi和xj越不相似，差异度越大。（2）选择评价聚类性能的准则函数￠? k-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集X，其中只包含描述属性，不包含类别属性。假设X 包含k个聚类子集X1,X2,…XK；各个聚类子集中的样本数量分别为n1，n2,…,nk;各个聚类子集的均值代表点（也称聚类中心）分别为m1，m2,…,mk。则误差平方和准则函数公式为：（3）相似度的计算根据一个聚类中对象的平均值