- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模糊聚类分析方法构建细菌进化树-read
基于模糊聚类分析方法构建生物进化树
1.概述
微生物资源数据库平台管理的是全国十几所高校的微生物实验数据,用户通过实验获得某一新培育微生物的各种特征数据,包括表型特征和基因特征后,首先要确定它在微生物中的分类地位也即在微生物进化树中所处的位置,然后才能对其分类命名,最后将其加入到数据库平台中相应的菌种数据库表中保存。在某一新培育微生物的一系列经过实验获得的属性数据中,对决定其分类地位最具权威性和说服力的就是它的基因特征中的16S rRNA基因序列属性。在生物进化的漫长过程中,其基因序列的变化非常缓慢,可以用来标记生物的进化距离和亲缘关系。20世纪60年代,Dubnau等在芽孢杆菌中发现了16S rRNA基因序列的保守性,从此这一序列被广泛用于细菌的分类和鉴定。Wsese等利用16S rRNA基因序列分析创立了生物三域学说,将生物界分为细菌域(Bacteria)、古细菌域(Archaea)和真核生物域(Eucarya),这是细菌进化的划时代发现。16S rRNA基因序列能够发挥如此巨大的作用是因为它具有以下特点:16S rRNA是所有原核生物蛋白质合成必需的1种核糖体RNA,因而能够用来鉴定所有细菌的亲缘关系;16S rRNA由大约1550个核苷酸组成,其长度既能够表现足够的种间多态性,又便于序列分析。
此外,从生物的DNA序列数据出发重构系统进化树的算法有两大类,其中一类是结构法,另一类是距离法,距离的计算都基于序列间的比对,比对分析对数据的要求严格,通常需要提取序列中的不同功能片段甚至要进行基因的预测。同时,用于比对的计分矩阵也因为比对物种的不同和比对数据的不同而存在很大的经验性。为了克服传统的基于序列比对的距离测度的不足,许多学者尝试用非比对的方法来比较DNA序列。目前,很多学者都提出了应用模糊聚类的方法来构建系统进化树。
本文在此基础上提出了应用模糊聚类图论法构建系统进化树,并且以“高校微生物资源数据库平台”中8条不同属不同种的细菌数据的16S rRNA基因序列(这些序列在GenBank数据库中都有其相应的注册号)为例,采用模糊聚类分析方法对这些序列进行聚类分析,说明利用模糊聚类图论法进行系统进化树的重构方法。这样一来,当平台的用户有了新培育的微生物的实验数据后,就可以通过将其16S rRNA基因序列与平台中已经确定分类地位的菌种数据进行聚类分析,获得新菌种大概的分类地位,然后根据新菌种的表型特征采用形态学的相关方法与其亲缘关系较近的菌种比较分析,从而最终确定新菌种的分类地位。
2.模型的建立过程
对于DNA 序列的分类方法种类繁多,它们大都从DNA序列的局部角度(如密码子)出发来寻找DNA 序列的局部规律和结构特征,本文运用模糊聚类分析的方法从DNA 序列的全局角度出发,来研究DNA 序列的分类方法,该方法忽略DNA 序列的局部结构的特征,从全局的角度对DNA 序列进行研究。首先,本文统计出8种细菌16S rRNA基因序列中每个序列(具体的序列详见所编写的程序所在目录下的RNA.txt文件)的A、T、C、G碱基密度,得到一个8 × 4 的指标矩阵,对此原始数据矩阵用模糊聚类分析方法进行分析,其处理过程如下:
(1)原始数据标准化
首先对样本数据采用以下变换方法进行预处理:
将8种细菌的第j个指标的平均值公式①及标准差公式②代入原始数据标准化公式③,即可得到标准化数据。然后再运用极值标准化公式④,将公式③得到的标准化数据压缩到[0,1]内,得到原始数据标准化并压缩到[0,1]范围后的输出数据如表1:
表1 标准化后的16S rRNA数据
(2)构造模糊相似矩阵
目前构造相似矩阵方法有13种之多,包括数量积法、夹角余弦法、相关系数法、指数相似系数法、最大最小法、算术平均最小法、几何平均最小法、海明距离法、欧氏距离法、切比雪夫距离法、蓝式距离法、绝对值倒数法、绝对值指数法。由于只有绝对值倒数法完全满足正确性原则、不变性原则和可区分性原则,且分辨率最高,因此本文用绝对值倒数法构造相似矩阵,绝对值倒数法的相关公式如下:
我们用表1的数据,在⑤中取C=0.1,计算出8个菌种间对应的相似矩阵如表2所示:
表2 八种细菌的相似矩阵
(3)最大树与进化树的构造
前面所建立的模糊矩阵R,一般来说仅仅具有自反性和对称性,不满足传递性,而只有R是模糊等价矩阵时才能对其进行聚类,故需要将R改造成模糊等价矩阵,可以采用传递闭包法进行改造。但是传递闭包法需要计算模糊相似矩阵R的传递闭包t(R),当样本个数n较大时计算传递闭包t(R)的工作量非常大。因此,一些学者提出了基于图论方法的模糊聚类方法-最大树法。最大树法前几步都与传递闭包法类似,即原始数据准备、数据标准化、构造相似矩阵。有多种方法可以画出最大树,最简单常用的就是Kruskal法,
您可能关注的文档
- 疾控信息2016年11月-辽宁疾病预防控制中心.doc
- 吉林银行2014年绿色信贷发展情况报告.doc
- 吉伟利2017-014.pdf
- 吉林西部牧区养羊户布鲁杆菌病感染现况调查-吉林大学学报.pdf
- 吉林生猪销售价格构成分析-化学工业与工程-吉林农业大学.pdf
- 级以及乡镇兽医站化验室的配套及使用.ppt
- 吉林工商学院报-党委宣传部.doc
- 吉林大学国际合作与交流处国际教育学院应对中东-吉林大学法学院.pdf
- 激光二极管恒流驱动电源的仿真设计-太赫兹科学与电子信息学报.pdf
- 基于转录组高通量测序分析白光对杜仲愈伤组织中绿原酸含量的影响.pdf
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- 水利工程质量检测员网上继续教育考试题库及答案混凝土专业试题及答案.pdf VIP
- 李白《将进酒》原文及赏析通用5篇.doc VIP
- 《自动喷水灭火系统施工及验收规范》GB50261-2017.docx VIP
- 小学英语_Unit 4 Lesson3 There are twenty pupils in my class教学设计学情分析教材分析课后反思.doc
- 2025贵州省旅游产业发展集团有限公司招聘115人备考试题及答案解析.docx VIP
- 《凤凰男的豪门贤妻》剧本整本.docx VIP
- 2013年水利工程质量检测员网上继续教育考试题库及答案-混凝土专业.pdf VIP
- 消毒技术规范2022.docx VIP
- 阳台封装施工安全协议书5篇.docx
- 消毒技术规范(2022).docx VIP
文档评论(0)