基于模糊聚类分析方法构建细菌进化树.doc

基于模糊聚类分析方法构建细菌进化树.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于模糊聚类分析方法构建细菌进化树

基于模糊聚类分析方法构建生物进化树 1.概述 微生物资源数据库平台管理的是全国十几所高校的微生物实验数据,用户通过实验获得某一新培育微生物的各种特征数据,包括表型特征和基因特征后,首先要确定它在微生物中的分类地位也即在微生物进化树中所处的位置,然后才能对其分类命名,最后将其加入到数据库平台中相应的菌种数据库表中保存。在某一新培育微生物的一系列经过实验获得的属性数据中,对决定其分类地位最具权威性和说服力的就是它的基因特征中的16S rRNA基因序列属性。在生物进化的漫长过程中,其基因序列的变化非常缓慢,可以用来标记生物的进化距离和亲缘关系。20世纪60年代,Dubnau等在芽孢杆菌中发现了16S rRNA基因序列的保守性,从此这一序列被广泛用于细菌的分类和鉴定。Wsese等利用16S rRNA基因序列分析创立了生物三域学说,将生物界分为细菌域(Bacteria)、古细菌域(Archaea)和真核生物域(Eucarya),这是细菌进化的划时代发现。16S rRNA基因序列能够发挥如此巨大的作用是因为它具有以下特点:16S rRNA是所有原核生物蛋白质合成必需的1种核糖体RNA,因而能够用来鉴定所有细菌的亲缘关系;16S rRNA由大约1550个核苷酸组成,其长度既能够表现足够的种间多态性,又便于序列分析。 此外,从生物的DNA序列数据出发重构系统进化树的算法有两大类,其中一类是结构法,另一类是距离法,距离的计算都基于序列间的比对,比对分析对数据的要求严格,通常需要提取序列中的不同功能片段甚至要进行基因的预测。同时,用于比对的计分矩阵也因为比对物种的不同和比对数据的不同而存在很大的经验性。为了克服传统的基于序列比对的距离测度的不足,许多学者尝试用非比对的方法来比较DNA序列。目前,很多学者都提出了应用模糊聚类的方法来构建系统进化树。 本文在此基础上提出了应用模糊聚类图论法构建系统进化树,并且以“高校微生物资源数据库平台”中8条不同属不同种的细菌数据的16S rRNA基因序列(这些序列在GenBank数据库中都有其相应的注册号)为例,采用模糊聚类分析方法对这些序列进行聚类分析,说明利用模糊聚类图论法进行系统进化树的重构方法。这样一来,当平台的用户有了新培育的微生物的实验数据后,就可以通过将其16S rRNA基因序列与平台中已经确定分类地位的菌种数据进行聚类分析,获得新菌种大概的分类地位,然后根据新菌种的表型特征采用形态学的相关方法与其亲缘关系较近的菌种比较分析,从而最终确定新菌种的分类地位。 2.模型的建立过程 对于DNA 序列的分类方法种类繁多,它们大都从DNA序列的局部角度(如密码子)出发来寻找DNA 序列的局部规律和结构特征,本文运用模糊聚类分析的方法从DNA 序列的全局角度出发,来研究DNA 序列的分类方法,该方法忽略DNA 序列的局部结构的特征,从全局的角度对DNA 序列进行研究。首先,本文统计出8种细菌16S rRNA基因序列中每个序列(具体的序列详见所编写的程序所在目录下的RNA.txt文件)的A、T、C、G碱基密度,得到一个8 × 4 的指标矩阵,对此原始数据矩阵用模糊聚类分析方法进行分析,其处理过程如下: (1)原始数据标准化 首先对样本数据采用以下变换方法进行预处理: 将8种细菌的第j个指标的平均值公式①及标准差公式②代入原始数据标准化公式③,即可得到标准化数据。然后再运用极值标准化公式④,将公式③得到的标准化数据压缩到[0,1]内,得到原始数据标准化并压缩到[0,1]范围后的输出数据如表1: 表1 标准化后的16S rRNA数据 (2)构造模糊相似矩阵 目前构造相似矩阵方法有13种之多,包括数量积法、夹角余弦法、相关系数法、指数相似系数法、最大最小法、算术平均最小法、几何平均最小法、海明距离法、欧氏距离法、切比雪夫距离法、蓝式距离法、绝对值倒数法、绝对值指数法。由于只有绝对值倒数法完全满足正确性原则、不变性原则和可区分性原则,且分辨率最高,因此本文用绝对值倒数法构造相似矩阵,绝对值倒数法的相关公式如下: 我们用表1的数据,在⑤中取C=0.1,计算出8个菌种间对应的相似矩阵如表2所示: 表2 八种细菌的相似矩阵 (3)最大树与进化树的构造 前面所建立的模糊矩阵R,一般来说仅仅具有自反性和对称性,不满足传递性,而只有R是模糊等价矩阵时才能对其进行聚类,故需要将R改造成模糊等价矩阵,可以采用传递闭包法进行改造。但是传递闭包法需要计算模糊相似矩阵R的传递闭包t(R),当样本个数n较大时计算传递闭包t(R)的工作量非常大。因此,一些学者提出了基于图论方法的模糊聚类方法-最大树法。最大树法前几步都与传递闭包法类似,即原始数据准备、数据标准化、构造相似矩阵。有多种方法可以画出最大树,最简单常用的就是Kruskal法,

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档