dna分类论文 dna序列分类.docVIP

下载本文档

123
0
约1.52万字
约 19页
2021-01-28 发布于河北
举报
版权申诉

dna分类论文 dna序列分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DNA序列分类一摘要重要性及意义从题目所给的已知条件和要求可以看出，本问题是一个有关DNA序列人工分类的问题。本文针对DNA序列分类这个实际问题，提出了相应的数学模型，为了更好的体现DNA序列分类的特征，本文给出了三种判别方法，即欧式距离判别法、Fisher判别法和Bayes判别法。从这三种方法得出的判别结果的正确率衡量出最优的判别方法，从而对问题二进行判别分类。对于问题一，从题目所给出的前20个序列的分类分析，先用matalb计算出标号为1-20序列中A、T、C、G的出现的概率，这样就可构造出含4个变量的特征集，从而构造出一个的概率矩阵，提取其特征。然后分别用欧式距离判别法、Fisher判别法和Bayes判别法来对DNA人工序列进行分类。在利用各个判别方法进行分类时，首先建立各个判别方法的数学模型，接着对其分析编程，利用matlab依次计算出各个判别方法对标号为1-20的DNA人工序列分类。然后在对21-40的DNA序列分类，得出这三种判别方法的分类判别的正确率。利用比较法，对这三种方法进行比较对比，从而得出欧式距离判别法、Fisher和Bayes判别法的判别效果一样。最终得出标号为21-40的DNA人工序列正确率最高的分类，即：（三种方法的结果都给出） A类：22 23 25 27 29 34 35 36 37 B类：21 24 26 28 30 31 32 33 38 39 40 最后在的条件下，通过F检验，判断该判别法的有效性。实际上，问题二就是对于问题一的一种推广。由问题一得出Fisher和Bayes判别法对于DNA人工序列的分类正确率比较高，所以对于问题二所给出的182个DNA人工序列，本论文选择Fisher判别法来进行分类。其判别的原理与问题一的Fisher判别法相同，都是先将DNA序列转化为相应的数学表达式，建立Fisher判别函数数学模型，然后分析编程，利用matlab得出其分类的结果： A类：3、5、6、8、9、13、14、15、16、17、18、19、20、21、25、27、31、32、33、35、36、38、39、41、42、44、45、47、49、52、53、55、58、59、60、61、62、64、67、68、69、70、71、73、77、79、82、87、89、90、91、93、97、98、99、100、101、104、105、106、109、112、113、115、117、118、120、124、132、134、136、139、141、145、147、148、149、154、155、158、171、172、176；其余的为B类。关键字（3-5个） DNA人工序列；距离判别法； Fisher判别法； Bayes判别法；提取特征. 二问题重述人类基因组计划中DNA全序列草图是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号。虽然人类对它知之甚少，但也发现了其中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题：（1）请从20个已知类别的人工制造的序列（其中序列标号1—10 为A类，11-20为B类）中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—40）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）（2）同样方法对182个自然DNA序列(它们都较长)进行分类，像（1）一样地给出分类结果。三问题分析从题目所给出的DNA人工序列观察发现，很多字符串重复出现的频率很高，从题目对于对标号1-20的DNA序列的分类可以看出，有些字符在A类和B类中出现的频率有明显的差距，所以本论文将A、T、C、G在各自序列中所出现的频率作为提取的特征变量，也就是将其作为判别A类和B类的标准。为了保证分类的正确率比较高，本论文采取了距离判别法、Fisher判别法和Bayes判别法这三种方法对DNA序列进行判别分类。对于问题一，