用基于模糊聚类的Kruskal算法构建进化树.pdfVIP

下载本文档

10
0
约6.25千字
约 4页
2017-07-08 发布于北京
举报
版权申诉

用基于模糊聚类的Kruskal算法构建进化树.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用基于模糊聚类的Kruskal算法构建进化树.pdf

第 20卷第 4期海南师范大学学报 (自然科学版) Vo1I20 No．4 2007年 12月 Journal of Hainan Normal University(Natural Science) Dee．2007 用基于模糊聚类的Kruskal算法构建进化树柳菁筠，李大超 (海南师范大学数学系，海南海口571158) 摘要：对线粒体DNA序列可通过图形表示及计算曲线的散度均值来构造模糊论中的相似矩阵，基于这些，提出一种新的方法：用模糊聚类图论法中的Kruskal算法来进行系统进化树的重构．并选取了8个物种的线粒体DNA序列来说明此方法．关键词：DNA；图形表示；模糊图论；进化树中图分类号：Q 332 文献标识码：A 文章编号：1671—8747(2007)04—0303-04 从生物的DNA序列数据出发重构系统进化树的算法有两大类，其中一类是结构法，另一类是距离法．例如。Jukes和Cantor，Kimura，KishinoHasegawa，Barry和Ha~igan，Lake都提出了不同的距离法；Camin和 0ka1．Eck和Dayhoff．Cavalli—Sforza和Edwards．以及Fitch给出了节约法．它们共同的特征是距离的计算都基于序列间的比对(alignment)．比对分析对数据的要求严格，通常需要提取序列中的不同功能片段甚至要进行基因的预测．同时。用于比对的计分矩阵也因为比对物种的不同和比对数据的不同而存征很大的经验性．为了克服传统的基于序列比对的距离测度的不足，许多学者尝试用非比对的方法来比较DNA序列．目前，很多学者提出了用图形表示法分析DNA序列．图形表示法的优点是给出简单、直观的方法来观察、比较不同的基因结构．文f21把张春霆等提出DNA序列的三维图形表示引入分子进化的研究，文【3】提出应用模糊聚类的方法构建进化树．本文在此基础上提出了应用模糊聚类图论法构建系统进化树，并且以 8种物种为例，说明利用模糊聚类图论法进行系统进化树的重构方法． 1 数据准备分子数据的大量涌现为系统发育分析提供了丰富的素材，但并非所有的数据都适合对特定问题的分析，在构建系统进化树时要求事先做出选择，确定那些数据是合理的，那些是不合理的．由于物种的线粒体DNA 序列的差异只与变异有关，而线粒体DNA以每一百万年2．2％的速度变异，它是保守序列，因此我们选取8 个物种的线粒体DNA序列作为研究对象．数据取自GenBank数据库，物种的名称及序列编号见表1． 2 DNA序列的三维图形表1 物种名称及GenBank索取号表不■0—0一文[4]中张春霆等提出DNA序列的三维图形表示：根据DNA序列中的4种核苷酸的化学性质和化学收稿日期：2007-04-20 基金项目：海南省自然科学基金资助项目(807052) 304 海南师范大学学报(自然科学版) 2007正学结构可将其分为三类：(a)嘌呤R={A，G}，嘧啶Y={C，T}；(b)酮基M={A，C}，氨基K={G，T}；(C)弱氢键W={A，T}，S={C，G}．将DNA序列的4个基看作一个正四面体的4个顶点，建立一个OXYZ坐标系，具体的做法可直接用数学形式表示如下：定义A(1，1，1)，T(一1，一1，1)，C(一1，1，一1)，G(1，一1，一1)；Z曲线上的点 =(A +G )一(Cn+ )， = (A +C )一(G + )， (1) ： (A + )一(Cn+G ) ，其中A 表示序列中前个基因中碱基A出现的