- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DNA序列分类
一 摘要
重要性及意义
从题目所给的已知条件和要求可以看出,本问题是一个有关DNA序列人工分类的问题。本文针对DNA序列分类这个实际问题,提出了相应的数学模型,为了更好的体现DNA序列分类的特征,本文给出了三种判别方法,即欧式距离判别法、Fisher判别法和Bayes判别法。从这三种方法得出的判别结果的正确率衡量出最优的判别方法,从而对问题二进行判别分类。
对于问题一,从题目所给出的前20个序列的分类分析,先用matalb计算出标号为1-20序列中A、T、C、G的出现的概率,这样就可构造出含4个变量的特征集,从而构造出一个的概率矩阵,提取其特征。然后分别用欧式距离判别法、Fisher判别法和Bayes判别法来对DNA人工序列进行分类。在利用各个判别方法进行分类时,首先建立各个判别方法的数学模型,接着对其分析编程,利用matlab依次计算出各个判别方法对标号为1-20的DNA人工序列分类。然后在对21-40的DNA序列分类,得出这三种判别方法的分类判别的正确率。利用比较法,对这三种方法进行比较对比,从而得出欧式距离判别法、Fisher和Bayes判别法的判别效果一样。最终得出标号为21-40的DNA人工序列正确率最高的分类,即:(三种方法的结果都给出)
A类:22 23 25 27 29 34 35 36 37
B类:21 24 26 28 30 31 32 33 38 39 40
最后在的条件下,通过F检验,判断该判别法的有效性。
实际上,问题二就是对于问题一的一种推广。由问题一得出Fisher和Bayes判别法对于DNA人工序列的分类正确率比较高,所以对于问题二所给出的182个DNA人工序列,本论文选择Fisher判别法来进行分类。其判别的原理与问题一的Fisher判别法相同,都是先将DNA序列转化为相应的数学表达式,建立Fisher判别函数数学模型,然后分析编程,利用matlab得出其分类的结果:
A类:3、5、6、8、9、13、14、15、16、17、18、19、20、21、25、27、31、32、33、35、36、38、39、41、42、44、45、47、49、52、53、55、58、59、60、61、62、64、67、68、69、70、71、73、77、79、82、87、89、90、91、93、97、98、99、100、101、104、105、106、109、112、113、115、117、118、120、124、132、134、136、139、141、145、147、148、149、154、155、158、171、172、176;
其余的为B类。
关键字(3-5个) DNA人工序列; 距离判别法; Fisher判别法; Bayes判别法; 提取特征.
二 问题重述
人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
(1)请从20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)
(2)同样方法对182个自然DNA序列(它们都较长)进行分类,像(1)一样地给出分类结果。
三 问题分析
从题目所给出的DNA人工序列观察发现,很多字符串重复出现的频率很高,从题目对于对标号1-20的DNA序列的分类可以看出,有些字符在A类和B类中出现的频率有明显的差距,所以本论文将A、T、C、G在各自序列中所出现的频率作为提取的特征变量,也就是将其作为判别A类和B类的标准。为了保证分类的正确率比较高,本论文采取了距离判别法、Fisher判别法和Bayes判别法这三种方法对DNA序列进行判别分类。
对于问题一,
您可能关注的文档
最近下载
- T_CECA20011-2021:含铁含锰地下水接触氧化法给水处理技术规程.pdf VIP
- 事故应急技术第一章 应急管理概论课件.ppt VIP
- 包括乘用车项目风险管理分析报告(仅供参考).docx VIP
- 高中物理必修2机械能守恒练习题.pdf VIP
- BS EN 573-3-2019 铝和铝合金.锻制产品的化学成分和形式.第3部分:产品的化学成分和形 式.pdf VIP
- 学堂在线 高技术与现代局部战争 章节测试答案.docx VIP
- 风光储电站成本构成全套.docx VIP
- 数字信号处理(英文版)教学课件.ppt VIP
- 白话机器学习算法.pdf VIP
- 职业技术学院网络营销与直播电商专业人才培养方案(2024版).pdf VIP
文档评论(0)