DNA序列的分类1问题的重述-ColumbiaEE.PDF

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA序列的分类1问题的重述-ColumbiaEE

DNA 序列的分类 DNA 序列的分类 韩轶平,余杭,刘威 指导老师:杨启帆 (浙江大学,杭州 310027 ) (浙江大学,杭州 310027 ) 编者按 : 本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征,从而进行了利用数理统计 方法的分类研究。而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置,在既定方向上颇具新 意地把工作推向深入。不足之处在于,未能使用相关度工具对各类样本分别进行分析;此外,“纯数学”必 须与其他学科紧密结合才会有优秀的建模工作,本文虽然对编码氨基酸的三联体进行初步探讨,着墨处自 是轻淡许多。 摘要 : 本文对 A 题中给出的 DNA 序列分类问题进行了讨论。从“不同序列中碱基含量不同”入手建立了欧 氏距离判别模型,马氏距离判别模型以及Fisher准则判定模型;又从“不同序列中碱基位置不同”入手建 立了利用序列相关知识的相关度分类判别算法,并进一步研究了带反馈的相关度分类判别算法。对于题中 所给的待分类的人工序列和自然序列,本文都一一作了分类。接着,本文又对其它各种常见的分类算法进 行了讨论,并着重从分类算法的稳定性上对几种方法作了比较。 1.问题的重述 1.1 背景 人类基因组中的DNA全序列是由 4 个碱基 A, T, G, C 按一定的顺序排成的长 约 30 亿的序列。除了这 4 种碱基以外,人们对它包含的内容知之甚少。尽管如 此,人类还是发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些 适用于编码蛋白质的序列片断,即有这 4 个碱基组成的 64 种不同的三核苷酸, 其中大多数用于编码构成蛋白质的 20 种氨基酸。又例如,在不用于编码蛋白质 的序列片断中,A 和 T 的含量特别多些,于是以某些碱基特别丰富作为特征去研 究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些 片断之间具有相关性,等等。这些发现让人们相信DNA序列中存在着局部的和全 局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这 项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当 的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 1.2 问题 有 20 个已知类别的人工制造的样本序列 ,其中序列标号 A1-A10 为 A 类, A11-A20为B类。要求从中提取特征,构造分类方法,并用这些已知类别的序列, 衡量分类方法是否足够好。然后对另外未标明类别的 20 个人工 DNA 序列(标号 1 DNA 序列的分类 A21-A40)和182个自然DNA序列(标号N1-N182)进行分类。 2.模型的条件和假设 2.1 题目数据中的错误 在题目所给定的数据中,我们发现了有几组数据存在着不同程度的错误,在 数据文件中出现了 s, n, w, r, y 五种不代表碱基的字母(参看附录)。对于这样的 情况,我们认为存在两种处理方法:第一,这些含有这些无意义字母的碱基序列 作为不可判类处理;第二,考虑到在一长度很大的碱基序列中出现很少量的错误 不会影响到序列的全局特征,可以采用将无意义字母简单删去的方法来处理。本 文采用后一种方式。 2.2 正态分布假设 对于特定的一种生物我们认为其DNA序列中各种碱基的含量服从正态分布。 3.符号约定 na :任一给定序列中碱基A 的百分含量; ng :任一给定序列中碱基 G 的百分含量; nt : 任一给定序列中碱基T 的百分含量; nc : 任一给定序列中碱基C 的百分含量; G : 由某些具有相同属性的个体组成的类。 i 4.问题的分析和解答 4.1 概述 根据题意,我们首先要提取出一个序列的特征,然后给出它的数学表示,最 后选择并构造基于这种数学表示的分类方法。对于一个任意一个DNA序列,我们 认为,反映该序列特征的方面有两个: 1.碱基的含量,反映了该序列的内容; 2.碱基的排列情况,反映了该序列的形

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档