基于数字信号处理方法的基因识别剖析.pptVIP

  • 13
  • 0
  • 约3.86千字
  • 约 28页
  • 2017-03-06 发布于湖北
  • 举报

基于数字信号处理方法的基因识别剖析.ppt

基于数字信号处理方法的 基因识别 1、研究背景及意义 2、基因识别的原理 3、基因识别的流程 4、Matlab实现 5、分析与总结 1、生物信息学的含义 生物信息学是二十世纪九十年代初随着人类基因组计划的启动而诞生的一门交叉学科, 其基本含义是利用数理知识和信息技术去整理和分析生物数据、研究生命的构成、阐述数据的生物学意义以及预测性状,用于研究的生物数据为脱氧核糖核酸 DNA 、核糖核酸 RNA 和蛋白质序列。 生物信息学的学科目的: 建立存储着大量生物信息学数据的数据库 研究、设计、开发有效的生物学数据分析与挖掘方法、算法和工具 利用工具去分析和解释不同类型的生物学数据,包括DNA序列、RNA序列、蛋白质序列、蛋白质结构等。 2、基因识别: 基因识别的含义:找出一个DNA序列或一个物种的基因组序列中编码蛋白质的部分 找出编码蛋白质部分基因的意义: 疾病基因的发现与克隆 生物制药 基因诊断与治疗 遗传病的预防 为什么要进行基因识别? 一个完整的DNA并非处处都能表达遗传信息,具有遗传效应的仅仅是其中某些片段。 真核生物的基因其有外显子和内含子之分,由于内含子属于序列非编码蛋白质的部分,所以在转录后形成mRNA的过程中需要剔除内含子,这便要求研究人员能够准确判断出外显子与内含子的分界点。 RNA编码蛋白质的过程 识别是否存在能编码蛋白质的基因 以及该基因区在序列中的位置的两种方法 一类是基于同源序列比较的方法 即上文提到的序列比较 ,同常借助与己知蛋白质序列的比较、与已知mRNA 序列的比较、与已知互补DNA序列和表达序列标签的比较以及相近物种基因组序列之间的比较来实现。 另一种是是基于序列特征的方法,这里的特征包括“结构” 即序列编码蛋白质的部分所具有的某些统计学特征)和“信号” 即能判断基因存在的某些序列所呈现的特征 ,“信号”预测则是本文要研究的对象。 二、基因识别的原理 所谓3-碱基周期性,是指在序列编码蛋白质的部分中脱氧核苷酸的排列存在着周期为3的短程相关性,或者说是指对数值序列进行Fourier变换后编码蛋白质的序列的功率谱在归一化频率2/3处出现明显的高峰 也就是说,如果DNA序列的长度为Nbp,则最终得到的功率谱会在N/3频率处得到峰值 ,这种特性序列非编码蛋白质的部分不存在。这就是为什么要选择3-碱基周期性作为特征提取的依据。 3-碱基周期性的原因 之所以会出现这种现象,是因为脱氧核苷酸在分布上存在不均衡: 序列非编码蛋质的部分的脱氧核苷酸在每个位置上都等概率分布,而序列编码蛋白质的部分构成一个密码子的三个含氮碱基在分布上就不是等概率的了 原因是蛋白质的生成更倾向于某些特定的氨基酸,导致序列编码蛋白质的部分某些脱氧核苷酸会被大量使用 实际外显子区域 3-碱基周期性验证 三、信号识别基因的基本流程 雄于序列信3?特征的方法足将转淡位点、起始密码了、外品了与内ivr的分 界点、终止密码子等闲实现特 的功能而其备的序列转化为数值序列进行分析,提取这些数值序列的特征后两对应到扣关的位置和功能上去,从而对待识别的DNA淨列进行判断。这?方法近似于模式识别 基于序列信号特征的方法是通过一定的映射规则将它映射为数值序列,这样一条 DNA 序列就可以看作一个离散的时间信号,而 DNA 序列的信息也全部包含其中。在此基础上我们就可以使用信号领域的一些分析方法,如自相关分析、傅立叶变换、小波变换等来对离散时间信号进行分析,观测 DNA 序列潜在的周期特性。 1、字符序列转化为数值序列的主要方法 DNA序列的数值映射种类繁多,譬如BR、Z-Curve、PSC,还有嘌呤-嘧啶法、复数法等,这些方法将原本的一个字符序列转化为一个或多个数值序列,序列的维数 即转化得到的数值序列的个数)不同,计算量也不同,用于分析的结果也有差别。 BR法,又被称作Voss映射 2、处理信号的原理与方法 对于一个给定的DNA序列,在将其数值化之后,还需要根据原始序列的特性来提取数值序列的特征,通过对特征的分析来找出编码蛋白质的序列与非编码蛋白质的序列的区别,从而判断出序列编码蛋白质的区域。 最常用的原始序列的特性为3-碱基周期性 常用的提取方式和分类依据为基于DFT的SCM(Spectral Content Measure)和SNR(Signal-to-Noise Ratio)。 SCM-基于序列信号特征的谱内容测量法 SCM的第一步就是将已经数值化的DNA序列进行DFT 第二步则是将得到的几个复数序列分别平方后得到各自的功率谱,然后相加求总的功率谱 以BR所得序列举例 其中N为一段序列中的碱基数 SNR 为了能够利用3-碱基周期性分辨序列编码蛋白质的区域和非编码蛋白质的区域,Tiwari提出计算归一

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档