最小支撑树算法在基因表达数据聚类分析中应用.docVIP

下载本文档

7
0
约7.85千字
约 16页
2018-09-11 发布于福建
举报
版权申诉

最小支撑树算法在基因表达数据聚类分析中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最小支撑树算法在基因表达数据聚类分析中应用

最小支撑树算法在基因表达数据聚类分析中应用　　摘要：聚类分析已成为对基因表达数据进行挖掘以提取生物医学信息的主要方法。本文提出了基于图论的最小支撑树(Minimum spanning tree，MST)聚类算法，用MST表示多维基因表达数据，可将数据的聚类转换为对最小支撑树的分割，相对于传统聚类方法，最小支撑树算法具有形象直观、对一些准则函数能产生全局最优解等优点；将MST算法分别与Memetic algorithm及人工免疫算法(Artificial immune network，aiNet)相结合，则产生更优化的聚类结果。对酵母基因表达数据的实验结果表明，最小支撑树聚类算法是一种有效的基因表达数据的聚类方法。　　关键词：最小支撑树；基因表达数据；聚类分析；DNA微阵列　　中图分类号：Q811.4 　　文献标识码：A 　　文章编号：1005-2615(2007)02-0171-05 　　　　引言　　　　DNA微阵列检测技术能使成千上万条基因在不同条件下同时表达，???人们可以从全基因组水平定量或定性检测基因转录产物mRNA。基因表达数据用于分析哪些基因的表达发生了改变，基因之问有何相关性，在不同条件下基因的活动是如何受影响的，并在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要作用[1]，如何从海量的基因表达数据中提取有用信息是生物信息学的重大挑战之一。目前，对基因表达数据进行非监督聚类分析常用方法有：(1)分层聚类法(Hierarchicalclustering)[2]；(2)K-均值法(K-means)[3]；(3)自组织映射法(SOMs)[4]等。这些算法还没有严格证明能得到全局最优解，另外，K-均值法和自组织映射法的聚类结果依赖于聚类边界的几何形状，在聚类有重叠且聚类边界非凸形状时往往聚类效果不佳[5]。本文将介绍基于图论的最小支撑树(Mini-mum spanning tree，MST)聚类方法。最小支撑树算法对于图形边界较复杂的数据也能得到较好的结果，其图形化的表示方法使聚类结果更直观。　　式(1)是一个R×S的基因表达数据矩阵，通常R＞＞S，行向量xi＝(xi1,xi2,…，xis)代表第i条基因在S个条件下(细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等)的表达水平，列向量代表某一条件下的各基因的表达水平。对数据矩阵中的行(基因)聚类，可以发现共调控基因或功能相关基因并得出生物学方面的结论；对数据矩阵中的列(样本)进行聚类，主要用于诊断疾病(如癌症)的亚类或新的疾病种类[6]。由于样本是为了达到一定的实验目的而选择的，每个样本都与聚类结果有很大相关性，但行数据往往有较大的冗余，可在聚类分析前对数据进行预处理，否则会造成样本聚类时基因作为特征的维数灾难问题[7]。　　　　1　最小支撑树　　　　用MST来代表基因表达数据，使数据之间的关系更直观，使聚类过程简单易行。X＝(x1，x2，…，xR)TT表示R条基因表达数据，xi＝(xi1，xi2，…，xis)代表第i条基因在S个样本下的表达值，G(x)＝(V，E)为一加权无向完全图，V＝{xi｜xi∈X}表示各节点(基因)，E＝{xi，xj｜xi，xj∈X Vi≠j}是一组连接节点的边，每条边(xi，xj)∈E的权ω(xi，xj)表示节点xi和节点xj之间的不相似性或距离，在本文中则表示为两条基因表达谱之间的距离。最小支撑树是G(X)的一个子图并满足：(1)包含图中所有节点；(2)图内无圈；(3)所有连接权之和最小。具有R个节点的最小支撑树有R-1条边。最小支撑树可用Prim算法或Kruskal算法得到，算法复杂度与边的数量或节点数量相关[8]。图1为一个二维数据点集的最小支撑树，每条边的权值用点之间的欧氏距离表示，该数据点集有4个自然聚类。　　　　2　基于MST的聚类算法　　　　最小支撑树聚类算法可将数据的聚类问题转化为树的分割问题，将一棵最小支撑树分割为K棵子树，则数据的类别数为K(整数K≥1)。不同的聚类问题有不同的数据特点，应选择不同的算法和准则函数。　　　　2.1清除MST不相容边的聚类算法　　不相容边是指一条边的长度L比交于同一节点所有边的长度平均值L长很多的边，将L/L＝h作为不相容边的度量值，聚类时依次清除h值最大的不相容边直至达到正确的类别数[9]。清除不相容边的算法可以消除“噪声”和孤立点的影响，但聚类结果和数据分布有很大关系。　　　　2.2清除最长MST边的聚类算法　　　　该算法过程是先构造数据点的最小支撑树，依次清除最长边直至有K棵子树形成，即有K个聚类形成，K可以按实际情况事先指定也可通过一定的准则函数进行最优选择，从准则函数的改