- 4
- 0
- 约6.77千字
- 约 10页
- 2019-01-27 发布于广东
- 举报
基因识别问题及其算法实现54866.doc
基因识别问题及其算法实现
一、背景介绍
DNA是生物遗传信息的载体,只化学名称为脱氧核糖核酸(Deoxyribonucleic acid,缩 写为DNA)cDNA分子是一种长链聚合物,DNA序列由腺喋吟^Adenine, 鸟瞟吟(Guanine, G),胞I密噪(Cytosine, C),胸腺n密唳{Thymine, T)这四种核昔酸(nucleotide)符号按一定 的顺序连接1何成。其中带有遗传讯息的DNA片段称为基I大I (G幼A)(见图1第一行)。其他的 DNA序列片段,冇些直接以自身构造发挥作川,冇些则参与调控遗传讯息的表现。
在真核个物的序列屮,基因通常被划分为许多间隔的片段(见图1第二行),其中编 码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显了 (Exon),不编码的部 分称为内含子外显子在DVA序列剪接(Splicing)后仍然会被保存下來,并可在
图1真核牛物DNA
图1真核牛物DNA用列(基因序列)结构示意图
外显子(Exon) 内含子(Intron )
蛋白质合成过程中被转录(transcription)复制(replication)而合成为蛋白质(见图2)。
DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋
DNA序列图2蛋白质结构示意图白质
DNA序列
图2蛋白质结构示意图
蛋白质序列
对大最、复杂的基因序列的分析,传统久物学解决问题的方式是基于分子实验的力法, 其代价高昂。诺贝尔奖获得者W.吉尔伯特(WalterGilbert, 1932—;【美】,第一个制备 出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并 以电子可操作的方式驻超在数据库中,新的生物学研究模式的出发点应是理论的。一个科学 家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”随着世界人类基 因组工程计划的顺利完成,通过物理或数学的方法从人最的DNA序列屮获取丰富的生物信息,对生物学、医学、药学等诸多方而都具有重要的理论意义和实际价值,也是H前生物信 息学领域的-个研究热点。
二、数字序列映射与频谱3?周期性:
对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是
一个尚未完全解决的问题,也是当前生物信息学的一个最革础、最首要的问题。
基因预测问题的一类方法是基于统计学的⑴。很多国际生物数据网站上也有“基因识别” 的算法。比如知名的数据网站http://gcncs. mi t. odu/GENSCAN. html提供的垄因识别软件 GENSCAN (由斯坦福人学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马 尔科夫链(1IMM)方法。但是,它预测人的基因组屮有45000个基因,相当于现在普遍认可 数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据 集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的悄况下,基 因识别的准确率会明显下降。
因此在目前基因预测研究屮,采用信号处理与分析方法来发现基因编码序列也受到广泛 重视⑷。
数字序列映射
在LWA序列研究中,首先需要把A、7\ G、C四种核昔酸的符号序列,根据一定的规 则映射成相应的数值序列,以便于对其作数字处理。
令Z = {A,T,G,C},长度(即核廿酸符号个数,又称碱基对(Base Paid长度,单位 记为切)为N的任意QM4序列,可表达为
S = { S[n] I S[n] s Z, h = 0,1,2,- JV-1}
即A、T、G、C的符号序列S: S[0],SU],???,S[W — l]。现对于任意确定的bwl ,令
S[n] = bS[n]
S[n] = b
S[n]工 b
称之为Vb刖映射⑸,于是生成相应的0?1序列(即二进制序列){uh[n]}:地[0],旳J1],…,,
uh[N -I] (b e I )o
例如,假设给定的一段DMA序列片段为S = ATCGTACTG,则所牛成的四个0-1序列分 别为:
[uA[n]}: {1,0,0,0,0,1,0,0,0} ; {%[“]}: {(),0,0丄0,0,0,0,1};
[uc[n]}: {0,0,1,0,0,0,1,0,0} ; {uT[n]}: {0,1,0,0,1,0,0,1,0}。
这样产生的四个数7序列乂称为DNA序列的指示序列(indicator Sequence)
频谱3?周期性
为研究DN4编码序列(外显子)的特性,对指示序列分别做离散Fourier变换(DFT)
N-1 _ 2兀nk
5[幻=工坷[川幺7 n , a=0,l,???,N-l (1)
n=0
以此可得到四个长度均为N的复数序列[
原创力文档

文档评论(0)