DNA序列的分类问题的重述-ColumbiaEE.PDFVIP

下载本文档

1
0
约1.91万字
约 11页
2018-02-23 发布于天津
举报
版权申诉

DNA序列的分类问题的重述-ColumbiaEE.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DNA序列的分类问题的重述-ColumbiaEE

DNA 序列的分类 DNA 序列的分类韩轶平，余杭，刘威指导老师：杨启帆（浙江大学，杭州 310027 ）（浙江大学，杭州 310027 ）编者按 : 本文借助于计算机符号处理的能力来把握序列中不同碱基的丰度特征，从而进行了利用数理统计方法的分类研究。而后引入相关度分类判别算法及反馈机制来比较碱基的相对位置，在既定方向上颇具新意地把工作推向深入。不足之处在于，未能使用相关度工具对各类样本分别进行分析；此外，“纯数学”必须与其他学科紧密结合才会有优秀的建模工作，本文虽然对编码氨基酸的三联体进行初步探讨，着墨处自是轻淡许多。摘要 : 本文对 A 题中给出的 DNA 序列分类问题进行了讨论。从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型，马氏距离判别模型以及Fisher准则判定模型；又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法，并进一步研究了带反馈的相关度分类判别算法。对于题中所给的待分类的人工序列和自然序列，本文都一一作了分类。接着，本文又对其它各种常见的分类算法进行了讨论，并着重从分类算法的稳定性上对几种方法作了比较。 1．问题的重述 1.1 背景人类基因组中的DNA全序列是由 4 个碱基 A, T, G, C 按一定的顺序排成的长约 30 亿的序列。除了这 4 种碱基以外，人们对它包含的内容知之甚少。尽管如此，人类还是发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些适用于编码蛋白质的序列片断，即有这 4 个碱基组成的 64 种不同的三核苷酸，其中大多数用于编码构成蛋白质的 20 种氨基酸。又例如，在不用于编码蛋白质的序列片断中，A 和 T 的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片断之间具有相关性，等等。这些发现让人们相信DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 1.2 问题有 20 个已知类别的人工制造的样本序列，其中序列标号 A1-A10 为 A 类， A11-A20为B类。要求从中提取特征，构造分类方法，并用这些已知类别的序列，衡量分类方法是否足够好。然后对另外未标明类别的 20 个人工 DNA 序列（标号 1 DNA 序列的分类 A21-A40）和182个自然DNA序列（标号N1-N182）进行分类。 2．模型的条件和假设 2.1 题目数据中的错误在题目所给定的数据中，我们发现了有几组数据存在着不同程度的错误，在数据文件中出现了 s, n, w, r, y 五种不代表碱基的字母（参看附录）。对于这样的情况，我们认为存在两种处理方法：第一，这些含有这些无意义字母的碱基序列作为不可判类处理；第二，考虑到在一长度很大的碱基序列中出现很少量的错误不会影响到序列的全局特征，可以采用将无意义字母简单删去的方法来处理。本文采用后一种方式。 2.2 正态分布假设对于特定的一种生物我们认为其DNA序列中各种碱基的含量服从正态分布。 3．符号约定 na ：任一给定序列中碱基A 的百分含量； ng ：任一给定序列中碱基 G 的百分含量； nt : 任一给定序列中碱基T 的百分含量； nc : 任一给定序列中碱基C 的百分含量； G : 由某些具有相同属性的个体组成的类。 i 4．问题的分析和解答 4.1 概述根据题意，我们首先要提取出一个序列的特征，然后给出它的数学表示，最后选择并构造基于这种数学表示的分类方法。对于一个任意一个DNA序列，我们认为，反映该序列特征的方面有两个： 1．碱基的含量，反映了该序列的内容； 2．碱基的排列情况，反映了该序列的形