2012研究生数学建模题目.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE PAGE 26 A 基因识别问题及其算法实现 一、背景介绍 DNA是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid,缩写为DNA)。DNA分子是一种长链聚合物,DNA序列由腺嘌呤(Adenine, A),鸟嘌呤(Guanine, G),胞嘧啶(Cytosine, C),胸腺嘧啶(Thymine, T)这四种核苷酸( nucleotide)符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见图1第一行)。其他的DNA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intron)。外显子在DNA序列剪接(Splicing)后仍然会被保存下来,并可在 基因(Gene) 基因(Gene) DNA DNA序列 外显子( 外显子(Exon) 内含子(Intron) 图1真核生物DNA序列(基因序列)结构示意图 蛋白质合成过程中被转录( transcription)、复制(replication)而合成为蛋白质(见图2)。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质( protein)上去并实现各种生命功能。 基因(Gene) 基因(Gene) DNA DNA序列 剪接、转录、 复制 剪接、转录、 复制 蛋白质序列 蛋白质序列 图2蛋白质结构示意图 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。 二、数字序列映射与频谱3-周期性: 对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站 /GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。 因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视 [4]。 1. 数字序列映射 在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。 令,长度(即核苷酸符号个数,又称碱基对(Base Pair)长度,单位记为bp)为N的任意DNA序列,可表达为 即A、T、G、C的符号序列:。现对于任意确定的,令 , 称之为Voss映射[5],于是生成相应的0-1序列(即二进制序列):, ()。 例如,假设给定的一段DNA序列片段为S = ATCGTACTG,则所生成的四个0-1序列分别为: :; :; :; :。 这样产生的四个数字序列又称为DNA序列的指示序列(indicator Sequence)。 2. 频谱3-周期性 为研究DNA编码序列(外显子)的特性,对指示序列分别做离散Fourier变换(DFT) (1) 以此可得到四个长度均为N的复数序列,。计算每个复序列的平方功率谱,并相加则得到整个DNA序列的功率谱序列: (2) 对于同一段DNA序列,其外显子与内含子序列片段的功率谱通常表现出不同的特性 图3 编号为BK006948.2的酵母基因DNA序列的功率谱(因为对称性,实际这里只给出了功率谱图的一半)。 (a) 上图是基因上一段外显子(区间为

文档评论(0)

158****1640 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档