DNA序列分类优秀论文.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列分类优秀论文

DNA序列分类 摘要 本问题是一个关于DNA序列分类的问题。问题一是针对人工序列建立分类模型,并分析模型的优劣。问题二是对自然序列利用问题一中的分类方法进行分类。它是问题一的推广。 问题一是在20个已知类别的人工制造序列的条件下,对20个未标明类别的人工序列(其中序列标号20—40)进行分类。要想解决这一问题,首先根据题中所给的20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类),可算出A、C、G、T在序列中出现的频率,然后用欧式距离判别法、Fisher判别法、Bayes判别法这三种分类方法分别求出线性判别函数,得到判对率分别为:90%、95%、80%,通过比较发现,用Fisher判别法对DNA序列判别分类比较好,最后用该方法把20个未标明类别的人工序列进行分类即可。在matlab中写出相应的程序,可以得到下面的结果: 20个人工序列: 23、25、27、29、34、35、37为A类,其余为B类。 对于问题二,序列的长度发生了变化,与问题一类似,现在本文用问题一中选出的正确率比较高的分类方法即Fisher判别法对182个自然DNA序列(它们都较长)进行分类即可。在matlab中写出相应的程序,可以得到下面的结果: 182个自然序列: 1、5、8、13、15、16、18、27、32、37、49、58、59、61、62、64、67、68、69、70、71、72、73、78、79、81、82、87、89、90、91、96、100、104、108、109、111、112、115、117、118、120、124、132、134、136、139、141、148、150、154、155、157、158、171、172、176为A类,其余为B类。 关键词:DNA序列分类、分类模型、欧式距离判别法、Fisher判别法、Bayes判别法 正文 一、问题重述 人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)请从20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入) 同样方法对182个自然DNA序列(它们都较长)进行分类,像1)一样地给出分类结果。 二、问题分析 对于问题一,属于分类问题,为了解决这一问题,本文首先从已知类别的人工制造序列来提取特征(为方便起见,本文是根据A、C、G、T在序列中出现的频率来提取特征的),然后学习欧式距离判别法、Fisher判别法、Bayes判别法这三种方法并用matlab编程实现,最后根据已知类别的人工制造序列来检验这三种分类方法的正确性,选出正确率比较高的一种分类方法,并用该方法把20个未标明类别的人工序列进行分类即可。 对于问题二,序列的长度发生了变化,问题一类似,本文用问题一中选出的正确率比较高的分类方法对182个自然DNA序列(它们都较长)进行分类即可。 三、模型假设与符号说明 3.1 模型假设 1)较长的182个自然序列与已知类别的20个样本序列具有共同的特征。 2)忽略除A、C、G、T以外的字母。 3.2符号说明 :表示A字符在序列中出现的频率; :表示C字符在序列中出现的频率; :表示G字符在序列中出现的频率; :表示T字符在序列中出现的频率; :表示A类总体样本的数目; :表示B类总体样本的数目; :表示A类总体中A字符在序列中出现频率的平均值; :表示A类总体中C字符在序列中出现频率的平均值; :表示A类总体中G字符在序列中出现频率的平均值; :表示A类总体中T字符在序列中出现频率的平均值; :表示实测指标值; :表示A类总体的均值向量; :表示B类总体的均值向量; :表示A类总体的样本离差阵; :表示B

文档评论(0)

almm118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档