- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
DNA序列分类模型研究
DNA序列分类模型研究; 2000年6月人类基因组计划中DNA全序列草图完成, 2004年10月绘制了精确的全序列图,标志着生命科学“登月计划”又向前迈出一步,从此人类拥有了一部记录着自身生老病死及遗传进化全部信息的“天书” 。
DNA作为一种遗传物质,早已在50多年前就被发现。它是由4种碱基:腺嘌呤(A) 、胞嘧呤C) 、鸟嘌呤(G)及胸腺嘧呤(T)按一定顺序排成的长约30亿的序列。;;
虽然全序列图绘制成功,但这个几十亿的长序列中既没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
;但人们也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。;作为研究DNA序列结构的尝试,提出以下DNA序列的分类问题:
(1)现有20个已知类别的人造DNA序列,其中第1~10序列为A类,第11~20序列为B类,现要求从中提取特征,构造分类方法,并用构造的方法对另外第21~40个未标明类别的人工序列进行分类,并写出结果。
(2)用构造的分类方法来给部分天然DNA序列进行分类,给出分类结果。;序列;方法1 基于字母出现频率的分类;方法一 评价;方法二 基于字母出现周期性;方法二 基??字母出现周期性; 可以把一串DNA序列看成一个信息流,关于A、B的分类,可以考虑其单位序列所含信息量(即熵)的多少。从直观上来看,我们可以认为重复得越多,信息量越少。;现在的问题就归结为如何找出一个合适的gm(l),不妨设g具有以下性质:;以第m个字符结尾的i字串且以第t个字符结尾的i字串完全相同
否则;定义为单位长度所带的信息量;方法三讨论; 考虑采用序列中的A、G、T、C的含量百分比作为该序列的特征百分比分别记为na,ng,nt,nc则得到一组表征该序列特征的四维向量(na,ng,nt,nc),由相关性取三维向量(na,ng,nt)即可
;A 欧氏距离(Euclid)分类模型;2、对于给定的样本点Xi,分别计算该点到CA,CB的的欧氏距离:;模型评价;B 氏距离(Mahalanobis)分类模型;C Fisher准则分类模型;样品X到某一类G的距离定义为:;方法四 三种分类模型的比较;对于任一个序列,当三种分类法结果完全一致时,认为它判别有效。
对于任一个序列,当三种分类法结果不完全一致时, 认为该序列为不可判类。;方法五 基于碱基相关性的分类模型;定义一:相关运算;定义二:哑元;定义三:序列的延拓;定义四:序列的相关度;公理一:任意给定三个序列S、A、B,若A与S的相关度大于B与S的相关度,则A与S属同一类的可能性大于B与S属同一类的可能性。;基于相关度的分类算法;3、判别准则
若SA>SB,则将S判定给A类
若SB>SA,则将S判定给B类
若SA=SB,则将S列为不可判类;方法五的改进 带反馈的相关度分类算法;1、对全部未知样本进行相关度分类,计算出所有未知样本的W值;
2、在所有被判为A类的待分类序列中,取出W值最大的一个作为标准学习样本加入到A类的标准样本中;
3、在所有被判为B类的待分类序列中,取出W值最小的一个作为标准学习样本加入到B类的标准样本中;
4、重复对剩余的待分类序列进行相关度分类,并按上述步骤不断扩充标准学习样本,直至全部的待分类序列都被加入到标准学习样本中。
;六 其它一些研究方法;生物信息学的发展趋势;谢谢!;在生物信息学中, 许多研究就是对新算法的需求,“算法是core 、算法是key 、算法是soul”。
生物信息学对我们提出了很多富有魅力的话题, 比如DNA 序列拼接、比对,蛋白质折叠,疾病基因发现,药物作用靶点预测等等。有些问题甚至是NP 性质的,这些问题到现在还是没
文档评论(0)