基因识别问题及其算法实现56663.docVIP

  • 2
  • 0
  • 约6.79千字
  • 约 10页
  • 2019-01-27 发布于广东
  • 举报
基因识别问题及其算法实现56663.doc

基因识别问题及其算法实现 背景介绍 DNA是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid,缩 写为DNA)cDNA分了是一种氏链聚合物,DNA序列由腺嚓吟^Adenine, A),鸟瞟吟(Guanin匕 G),胞懈定(Cytosine, C),胸腺口密碇(.Thymine, T)这四种核昔酸{nucleotide)符号按—定 的顺序连接而成。其中带冇遗传讯息的DNA片段称为棊因(Gene)(见图1第一行)。其他的 DMA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的QNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其小编 码蛋白质的部分,即编码序列(Coding Sequent)片段,称为外显了 (Exon),不编码的部 分称为内含了 (Imron)。外显了在DNA序列剪接(Splicing)示仍然会被保存下来,并可在 DNA序歹I」 DNA序歹I」 外显子(Ewn) 内含子(Intron) 图1真核生物DNA序列(基因序列)结构示意图 DNA丿予列基因(Gene) DNA丿予列 基因(Gene) 图2蛋白质结构示意图 蛋白质合成过程中被转录{transcription^.复制{replication)而合成为蛋白质(见图2)。 DNA序列通过遗传编码來储存信息,指导蛋口质的合成,把遗传信息准确无误地传递到蛋 白质(protein)上去并实现各种生命功能。 蛋白质序列 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法, 其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert, 1932—;【美】,第一个制备 出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并 以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学 家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”随着世界人类基 因组工程计划的顺利完成,通过物理或数学的方法从人最的DNA序列屮获取丰富的生物信 息,对牛物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信 息学领域的一 ?个研究热点。 二、数字序列映射与频谱3?周期性: 对给定的DNA序列,怎么去识别岀其屮的编码序列(即外显了),也称为基因预测,是 一个尚未完全解决的问题,也是当前牛?物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的山。很多国际生物数据网站上也有“基因识别” 的算法。比如知名的数据网站http://genes. mit. edu/GENSCAN. html提供的基因识别软件 GENSCAN (III斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马 尔科夫链(HMM)方法。但是,它预测人的基因组屮有45000个基因,相当于现在普遍认可 数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据 集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基 因识别的准确率会明显下降。 因此在目前基因预测研究中,采用信号处理与分析方法來发现基因编码序列也受到广泛 重视⑷。 数字序列映射 在DVA序列研究屮,首先需要把4、T、G、C四种核廿酸的符号序列,根据一定的规 则映射成相应的数值序列,以便于对其作数字处理。 令/={A,7\G,C},长度(即核廿酸符号个数,又称碱基对(Base Pair)长度,单位 记为切)为N的任意DVA序列,可表达为 S={S[n] I S[n] g Z, 〃 = 0,1,2,???N — 1} 即A、T、G、C的符号序列S: S[0],S[l],…,S[N — 1]。现对于任意确定的fee/,令 S[n] = bS[n]^b S[n] = b S[n]^b 称之为映射⑸,于是牛成相应的0-1序列(即二进制序列)[uh[n]}: ?[0],坷[1],…,, 例如,假设给定的一段DNA序列片段为S = ATCGTACTG,贝9所牛?成的四个0-1序列分 别为: [uA[n]}: {1,0,0,0,0,1,0,0,0} ; {?[〃]}: {0,0,0,1,0,0,0,0,1}; {%[切}: {0,0,1,0,0,0,1,0,0}; [uT[n]}: {0,1,0,0,1,0,0,1,0}。 这样产生的四个数字序列又称为DNA序列的指示序列(indicator Sequence)o 频谱3■周期性 为研究DVA编码序列(外显了)的特性,对指示序列分别做离散斤〃加纣变换(DFQ N-\ _ j2mk 如幻=2>山]厂右,k=0,l,???,N-l (I) 7?=0 以此

文档评论(0)

1亿VIP精品文档

相关文档