基因识别问题及其算法实现 .pdfVIP

  • 4
  • 0
  • 约3.69万字
  • 约 27页
  • 2019-09-13 发布于江苏
  • 举报
参赛密码 (由组委会填写) 第九届 “华为杯”全国研究生数学建模竞赛 题 目 基因识别问题及其算法实现 摘 要: 本文主要利用基因编码序列的频谱 3-周期性,使用信号处理和分析的手段 处理 DNA 序列,运用已知编码区域的基因样本,建立了基因编码区域识别的 数学模型,并应用此模型对 6 个未知的 DNA 样本进行了编码区域预测。最后 讨论了基于信号处理的 DNA 频域分析法在检测基因突变领域上的应用。 对于问题一,我们推导了基因序列的 Voss 映射、Z-curve 和实数映射在计 算 N/3 频谱峰值和总功率谱平均值中的快速算法。使用碱基在子序列出现的频 数进行计算,避免了 DFT 的繁杂运算,特别的是当连续的滑动窗口或移动序列 时,出现频数可以由之前频数简单处理得到,使得频谱与信噪比的求解为常数 复杂度。讨论了各数值映射关系的优劣,并决定在建模中使用 Voss 映射。 对于问题二,我们定义了识别灵敏度和识别特征度两个指标量来定量的描 述识别算法的优劣。对于基因识别算法模型中的重要参量——判别阈值,采用 “大范围、小步进”的方式遍历搜索。对于每一个判别阈值分别求出相应的灵 敏度和特征度,并分别给出了具有工程意义的 90%、80%、70%特征度意义下, 灵敏度最优估计阈值。最终将获得阈值在同一物种 DNA 样本中进行编码区域 识别验证,取得了预期的效果,说明了阈值确定方法的合理性。 对于问题三,我们结合了已有的识别算法,针对识别序列破碎、端点模糊 等问题,在计算过程中加入一些滤波、填补、检测调整等辅助方式,获得了较 为精确的外显子识别算法,并应用新识别算法对已知编码区序列进行验证,取 得十分良好的效果。最终应用新算法于6 个未被注释的 DNA 序列的编码区域 预估中,预测出相应的编码区域。 对于拓展性研究,我们探讨了 DNA 频域分析法在检测基因突变领域上的 应用。通过对 DNA 序列中单个核苷酸进行替换、删除、插入等操作,根据 DNA N 序列频谱的变化,观察P[ ] 幅值的衰减或者产生的杂散谱幅值,大概分析出基 3 因突变的核苷酸位置。对接下来深入研究基因突变检测具有指导性的意义。 关键词: 频谱 3-周期性 阈值确定 编码区预测 基因突变识别 - 2 - 基因识别问题及其算法实现 1 问题来源 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子 实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932 —;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991 年曾经指出: “现 在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新 的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后 再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划 的顺利完成,通过物理或数学的方法从大量的DNA 序列中获取丰富的生物信息, 对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是 目 前生物信息学领域的一个研究热点。 对给定的 DNA 序列,怎么去识别出其中的编码序列(即外显子),也称为 基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、 最首要的问题。 研究表明,在基因外显子序列的功率谱曲线中,在 频率处具有较大的频 谱峰值(Peak Value),反映了在基因外显子片段上,四种核苷酸符号在序列的三 个子序列上分布的“非均衡性”。通常认为这种现象源于编码基因序列“密码 子”(coden )使用的偏向性(bia

文档评论(0)

1亿VIP精品文档

相关文档