- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* DNA序列分类(2000年A题) 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“ 天书”,这本大自然写成的“ 天书”是由4个字符A,T,C,G按一定顺序排列成的长约30亿的序列,其中没有“ 断句”,也没有标点符号,除了这4种字符表示4种碱基因以外,人们对它包含的“ 内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“ 天书”时21世纪最重要的任务之一。在这个目标中,研究DNA序列具有什么结构,由这4个排成的看似随机的序列中隐藏着什么规律,又是读懂这部天书的基础,是生物信息最重要的课题之一。 虽然人类对这部“ 天书”知之甚少, 但也发现了 DNA序列中的一些规律和结构。例如,在全序列中有一些是用于编码蛋白质的序列片断,即由这4个字符组成64种不同的3字符串,其中大多数用于编码构成蛋白质的24种氨基酸。又例如,在不用于编码蛋白质的序列片断中A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA系列的结构,也取得一些结果。此外,利用统计的方法还发现序列的某些片断之间具有相关性,等。这些发现让人们相信,DNA序列中存在着局部或全局的结构,充分发掘序列的结构对理解DNA全序列是非常有意义的。目前在这项研究中,最普遍的思想是省略 序列的某些细节,突出特征,然后将 其表示成适当的数学对象,这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列结构的尝试,提出下列对序列集合进行分类的问题: 1)下面有20个已知类别人工制造的序列(略),其中1~10为A类,11~20为B类,请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未表明类别的人工序列(序号21~40)进行分类,把结果用序号(按从大到小顺序)表明他们的类别(无法分类的不写入); A类_____________;B_________________. 请详细描述你的方法,给出计算机程序,如果你部分的使用现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Art-model-data标识,供下载; 网易网址:www,163.com 教育频道 在线试题: 教育网: News mcm2000 教育网:/mcm 2)在同样网址的数据文件Nat-model-data中给出182个自然DNA序列,它们都特长,用你的方法将它们分类,象1)一样的给出分类结果。 提示:衡量分类方法的优劣标准 是分类的准确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。 DNA 序 列 的 分 类 模 型 汤诗杰 周 亮 王晓玲 中国科技大学 1.问题的提出(略) 2.问题的分析 为表述严格方便,先用数学方法重述问题。 已知字母序列S1, S2,…, S40, Si= x1 x2… xni,其中xj?{a,t,c,g};A、B为两个字符序列集合,满足A?B=?,且当1?i ? 10时, Si ?A,当11?i ? 20时, Si ?B。现要求考虑当21?i ?40 时, Si 属于A、B那个集合。 问题关键是从已知20个序列中提取分类特征。 3.分类标准及评价 所提取标准应满足以下两条: (1).必须可标志A组和B组。 (2).必须有一定的实际意义。 限制条件 目标函数 4.模型建立与分析 尝试综合使用3种设计思想不同方法处理。 第1种:从字母出现的频率出发。 第2种:从字母出现的周期性出发。 第3种:从序列所带的某些方面信息量出发。 最后从这3方面出发,得一综合分类方法。 方法1 基于字母出现频率 不同段DNA中,每个碱基因出现频率不同,从生物理论知,编码蛋白质的DNA中G、C含量偏高,非编码蛋白质的DNA中A、T含量偏。故A、G、T、C出现频率有很多信息。 表1,表2(略)分别给出A、B组字母频率。 由统计数字知:A组C基因含量高, B组T基因含量高。 为定量化分析,引入四维向量(PA, PG, PT, PC ), 其中PA, PG, PT, PC,分别表示A,G,T,C的频率。这样我们得到了两组向量Ai、Bi; i=1, 2, …,10; 然后将未知序列
原创力文档


文档评论(0)