DNA序列分类幻灯片.pptVIP

下载本文档

6
0
约3.37千字
约 20页
2017-01-24 发布于浙江
举报
版权申诉

DNA序列分类幻灯片.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* DNA序列分类(2000年A题) 2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“ 天书”，这本大自然写成的“ 天书”是由4个字符A,T,C,G按一定顺序排列成的长约30亿的序列，其中没有“ 断句”，也没有标点符号，除了这4种字符表示4种碱基因以外，人们对它包含的“ 内容”知之甚少，难以读懂。破译这部世界上最巨量信息的“ 天书”时21世纪最重要的任务之一。在这个目标中，研究DNA序列具有什么结构，由这4个排成的看似随机的序列中隐藏着什么规律，又是读懂这部天书的基础，是生物信息最重要的课题之一。虽然人类对这部“ 天书”知之甚少，但也发现了 DNA序列中的一些规律和结构。例如，在全序列中有一些是用于编码蛋白质的序列片断，即由这4个字符组成64种不同的3字符串，其中大多数用于编码构成蛋白质的24种氨基酸。又例如，在不用于编码蛋白质的序列片断中A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA系列的结构，也取得一些结果。此外，利用统计的方法还发现序列的某些片断之间具有相关性，等。这些发现让人们相信，DNA序列中存在着局部或全局的结构，充分发掘序列的结构对理解DNA全序列是非常有意义的。目前在这项研究中，最普遍的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象，这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究DNA序列结构的尝试，提出下列对序列集合进行分类的问题： 1)下面有20个已知类别人工制造的序列(略)，其中1～10为A类，11～20为B类，请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未表明类别的人工序列(序号21～40)进行分类，把结果用序号(按从大到小顺序)表明他们的类别(无法分类的不写入)； A类_____________;B_________________. 请详细描述你的方法，给出计算机程序，如果你部分的使用现成的分类方法，也要将方法名称准确注明。这40个序列也放在如下地址的网页上，用数据文件Art-model-data标识，供下载；网易网址：www,163.com 教育频道在线试题：教育网： News mcm2000 教育网：/mcm 2)在同样网址的数据文件Nat-model-data中给出182个自然DNA序列，它们都特长，用你的方法将它们分类，象1)一样的给出分类结果。提示：衡量分类方法的优劣标准是分类的准确率，构造分类方法有许多途径，例如提取序列的某些特征，给出它们的数学表示：几何空间或向量空间的元素等，然后再选择或构造适合这种数学表示的分类方法；又例如构造概率统计模型，然后用统计方法分类等。 DNA 序列的分类模型汤诗杰周亮王晓玲中国科技大学 1.问题的提出(略) 2.问题的分析为表述严格方便，先用数学方法重述问题。已知字母序列S1， S2，…， S40， Si＝ x1 x2… xni，其中xj?{a,t,c,g}；A、B为两个字符序列集合，满足A?B＝?，且当1?i ? 10时， Si ?A，当11?i ? 20时， Si ?B。现要求考虑当21?i ?40 时， Si 属于A、B那个集合。问题关键是从已知20个序列中提取分类特征。 3.分类标准及评价所提取标准应满足以下两条： (1).必须可标志A组和B组。 (2).必须有一定的实际意义。限制条件目标函数 4.模型建立与分析尝试综合使用3种设计思想不同方法处理。第1种：从字母出现的频率出发。第2种：从字母出现的周期性出发。第3种：从序列所带的某些方面信息量出发。最后从这3方面出发，得一综合分类方法。方法1 基于字母出现频率不同段DNA中，每个碱基因出现频率不同，从生物理论知，编码蛋白质的DNA中G、C含量偏高，非编码蛋白质的DNA中A、T含量偏。故A、G、T、C出现频率有很多信息。表1，表2(略)分别给出A、B组字母频率。由统计数字知：A组C基因含量高， B组T基因含量高。为定量化分析，引入四维向量(PA, PG, PT, PC ), 其中PA, PG, PT, PC,分别表示A，G，T，C的频率。这样我们得到了两组向量Ai、Bi； i=1, 2, …，10；然后将未知序列