基因识别问题及其算法实现 (2).pdfVIP

  • 1
  • 0
  • 约6.45万字
  • 约 26页
  • 2019-09-13 发布于江苏
  • 举报
第九届 “华为杯”全国研究生数学建模竞赛 第九届 “华为杯”全国研究生数学建模竞赛 题 目 基因识别问题及其算法实现 摘 要 基因识别问题是当前生物信息学的一个最基础的问题,目前采用信号处理与 分析方法来发现基因编码序列受到了广泛重视。本文主要基于 DNA 序列的信 噪比特征来进行基因识别。 首先,我们分别简化了Voss 映射、Z-curve 映射以及实数映射下对应的功率 谱和信噪比的计算公式,证明了Z-curve 映射与Voss 映射下对应的功率谱和信 噪比相差非零常数倍。同时,我们还对三种映射的信噪比曲线进行了分析比较, 并利用实例验证了碱基的3-周期现象与映射的选取无关。 其次,我们先通过一些统计数据,强调了不同物种类型应当有不同的基因阈 值。同时,我们提出了基于位置判定和基于距离平方的两种最优化方法,并给 出了一系列的评价指标,对代表性生物的阈值判定结果作了分析比较。 然后,我们给出了基于DNA 序列信噪比特征的基因识别算法,强调了这种 算法的合理性。同时,我们还通过实例验证了算法的有效性,并作了相应误差 分析。另外,我们还标出了附件中的六组基因数据外显子的具体位置。 最后,我们探讨了位于内含子和外显子之间的剪切位点的识别问题。根据剪 切位点区域的生物特性,我们引入了统计学中的隐马尔可夫过程,对剪切位点 的供点区域建立相应模型,得到隐马尔可夫模型的重估参数,用以识别 DNA 序列中的剪切位点。 关键词:信噪比;3-周期性;阈值;基因识别;剪切位点 - 2 - 一、问题重述 DNA 是生物体遗传信息载体,其化学名称为脱氧核糖核酸。DNA 是一种 长链聚合物,由腺嘌呤(A),鸟嘌呤(G),胸嘧啶(C),胸腺嘧啶(T)按一定顺序组成。 其中带有遗传讯息的DNA 片段称为基因。基因通常被划分为许多间隔的片段, 其中编码蛋白质的部分,即编码序列片段,称为外显子,不编码的部分称为内 含子。随着人类基因组计划的实施和顺利完成,基因预测成为生物信息学中最 基础,也是最首要的问题。对基因预测中,由于用统计预测方法在未知基因的 准确率明显下降,采用信号处理与分析方法来发现基因编码序列也受到广泛重 视。基于此,题目中特别介绍数字序列映射、DNA 序列信号3 周期特性的信噪 比(SNR)概念和基因识别的两种方法,在这两种方法中,其中一种是一是固定 长度窗口滑动法,另一是移动信噪比曲线识别法。最后提出以下4 个问题: 1.功率谱与信噪比的快速算法: (1) 对Voss 映射,探求功率谱与信噪比的某种快速计算方法; (2) Z-curve 映射和Voss 映射下的频谱与信噪比之间的关系; (3) 对实数映射给出功率谱与信噪比的快速计算公式; 2.对不同物种类型基因的阈值确定 (1) 研究其阈值确定方法和阈值结果; (2) 按照频谱或信噪比特征将编码与非编码区间分类的有效性,以及分类识别 时所产生的分类错误作适当分析; 3. 基因识别算法的实现 对所设计的基因识别算法的准确率做出适当评估,并将算法用于对附件中给 出的6 个未被注释的DNA 序列的编码区域的预测; 4. 延展性研究 对你们自己认为有价值的其它相关问题展开探讨 二、问题假设 1. 本文中用于验证分析的所有DNA 序列都是正常序列,未发生基因突变; 2. 本文中用于验证分析的所有DNA 序列中没有无用的序列; 3. 本文中用于验证分析的所有 DNA 序列中若外显子和内含子的位置已知,则 它们的位置完全无误; - 1 - 4. DNA 序列中的外显子和内含子是紧邻的,它们之间不含有其它序列 三、问题分析 针对问题1,关键在于如何根据离散Fourier 变换以及DNA 指示序列的性 质得到不同映射下功率谱和信噪比的快速计算方法。对于不同的映射,它们所 反映的 DNA 的总体信息也不同,对映射之间的优劣比较有助于我们更好地理 解DNA 信息。

文档评论(0)

1亿VIP精品文档

相关文档