- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于模拟随机流的Markov图聚类方法研究
第 31 卷第 1 期
2013 年 1 月
佛山科学技术学院学报 (自然科学版)
Jo u rn a l o f Fo sh an U n ive r sity (N a tu ra l Sc ien ce E d it io n )
V o l. 31 N o. 1
J an.
2013
文章编号: 100820171 (2013) 0120039205
基于模拟随机流的M a rko v
温菊屏, 胡小生
图聚类方法研究
(佛山科学技术学院 电子与信息工程学院, 广东 佛山 528000)
摘 要: 总结图聚类几种主要算法, 在此基础上详细介绍了一种较新的图聚类算法—— 基于模拟随机流的
M a rko v 图聚类算法 (M CL ) , 该算法是基于流这种自然现象的一种简单优美算法, 应用在生物信息学网络聚类 中比较高效。由于该算法具有运行速度慢、聚类数目过多的缺点, 因此又介绍了一种改进的M CL 算法——R 2
M CL 算法。
关键词: 图聚类; 模拟随机流; 转移概率矩阵; M CL 算法; R 2M CL 算法
中图分类号: T P 301. 6
文献标志码: A
所谓聚类 (c lu ste r in g ) , 就是将一群物理的或者抽象的对象, 根据它们之间的相似程度, 分为若干
组, 并使得同一个组内的数据对象具有较高的相似度, 而不同组中的数据对象则不相似。 图聚类指把图 中相对紧密的节点及其边分组形成一个可以用抽象节点表示的子图, 子图内各节点有较高的连接度, 而
子图之间各节点连接度相对低。图聚类方法有很多种, 比较常见且有代表性的有: 基于划分的图聚类1 、
基于层次的图聚类2 、基于密度的图聚类3 以及基于图像分割的谱聚类4 等。
(1) 基于划分的图聚类: 对于一个给定 n 个节点的大图, 预先指定聚类数目 k 和初始聚类中心, 通过 反复迭代运算, 逐步减少目标函数的误差值, 当目标函数值收敛时, 得到最终聚类结果。它的主要优点是 算法简单、快速, 但是该方法不能发现非球状的或大小差别很大的类, 而且对“噪声”和孤立点敏感。
( 2) 基于层次的图聚类: 是寻找图中子图结构的一类传统算法, 它基于各节点之间连接的相似性或 者强度, 把图自然划分成各个子图, 根据是向图中添加边还是从图中移除边, 该类算法又可分为: 凝聚方 法和分裂方法。单纯层次聚类算法终止条件含糊, 执行合并或分裂操作不可修正, 可扩展性差, 通常在解 决实际聚类问题时需要把层次方法与其他方法结合起来。
( 3) 基于密度的图聚类: 许多算法??用距离来表示数据之间的相似度, 基于密度的图聚类是从图中 各节点分布密度出发, 把密度足够大的区域连接起来形成一个小类, 此类算法可以发现任意形状的类, 还能有效去除噪声。
(4) 基于图像分割的谱聚类: 它是基于图论的聚类算法, 算法框架大致为: 首先构造一个相似图用以 描述数据点之间的相似关系, 然后根据某个优化目标将图分割为若干不连通的子图。该算法具有可以处 理更为复杂的簇结构 (如非凸数据) 并找到全局宽松解的优势, 因此被推广应用到计算机视觉、集成电路 设计、负载均衡、生物信息、文本分类等领域。
基于模拟随机流的M a rko v 图聚类5
是比较新的一种算法, 相较于前面几种, 它具有简单和直观的
优势, 并且在复杂生物学领域中, 此算法比较高效。本文重点讨论以M CL (M a rko v C lu ste r in g) 为代表的
基于模拟随机流的图聚类算法。M CL 算法在生物信息学中的应用具有以下优势: 1) 它是基于流这种自 然现象 (或图中节点之间转移概率) 的一种优美方法; 2) 它不容易被数据中的拓扑噪声所影响; 3) 虽然它
具有聚类数目过多, 运行速度慢的缺点, 为了克服M CL 的缺点, 本文在介绍M CL
介绍一种改进的M CL 算法——R 2M CL 6 。
算法的基础之上, 再
基本概念
1
马尔科夫 (M a rko v) 过程和马尔科夫链
马尔科夫过程是具有无后效性的随机过程。 无后效性是指当过程在 tm 时刻所处的状态为已知时,
过程在大于 tm 时刻所处状态的概率特性与过程在 tm 时刻所处的状态有关, 而与过程在 tm 时刻以前的 状态无关。 通常把时间和状态都离散的马尔科夫过程称为马尔科夫链。
1. 2 随机漫步
对于一个由多个节点构成的大图, 同一类节点之间的连接多于不同类节点之间的连接, 因此, 如果 以图中某一个节点为起点, 此时随机漫步走到下一个节点时, 走到同一类中节点的概率比不同类节点的
1. 1
概率大, 这就是M CL (M a rko v c lu ste r i
文档评论(0)