DNA 序列表示及基因识别方法研究.pdfVIP

下载本文档

19
0
约11.69万字
约 54页
2019-09-13 发布于江苏
举报

DNA 序列表示及基因识别方法研究.pdf

参赛密码（由组委会填写）第九届“华为杯”全国研究生数学建模竞赛第九届“华为杯”全国研究生数学建模竞赛题目 DNA 序列表示及基因识别方法研究摘要：本文就 DNA 序列表示及基因识别算法实现的相关问题进行了研究，取得了以下几方面的成果。 1. 功率谱与信噪比的快速算法  针对 Voss 映射，给出了计算基因序列功率谱或信噪比的快速 Fourier 变换和 AR 模型，仿真实验结果表明，计算效率有所提升。经过理论推导，建立了功率谱、信噪比与 DNA 序列中核苷酸出现的频次之间的关系，即为 SNR-F 公式： N N N N A C G T R R  R  R  R A C G T N N N N 利用该公式，计算功率谱与信噪比将不再需要离散Fourier 变换等计算量较大的运算，只需要对 DNA 序列中核苷酸出现的频次进行统计，然后进行简单的数值运算即可，有效提升了功率谱与信噪比的计算效率。  推导出了 Z-curve 映射的功率谱与信噪比和 Voss 映射下的功率谱与信噪比之间的数值关系，即为： E 4E 和R R z z 并从理论基础、生物学意义和特征三个方面对 Z-curve 映射和 Voss 映射进行了对比分析，刻画出了两种映射之间更深层次、更全面的关系。  经过理论推导，给出了一般的实数映射下功率谱、信噪比的快速计算公式，将其功率谱、信噪比的计算简化为核苷酸出现频次的统计和简单数值运算，极大简化了实数映射下功率谱与信噪比的计算。 2. 对不同物种类型基因的阈值确定 1  本文结合重采样技术，提出了最佳阈值确定算法，能为每一个特定种类的生物推测其最佳阈值。模型能够针对不同生物基因的结构特征，启发式地为其推断出一个最佳的预测阈值。仿真实验结果表明，附件中所给的人和鼠类生物基因预测的最佳阈值为 1.7773，200 个哺乳动物类的基因预测的最佳阈值为 2.18 。在合理确定窗口大小的基础上，利用该最佳阈值能显著提高基于功率谱分析方法的基因预测精度，同时还可用来预测该生物目前尚未标注确认的其它基因。 3. 基因识别算法的实现  针对基因识别算法的设计与实现问题，本文首先利用基于 AR 模型重采样的基因预测方法对附件中给出的6 个未被注释的DNA 序列的编码区域进行了预测。然后，结合数字滤波器与信噪比快速计算公式，提出了一种基于 SNR-F 的基因识别模型。该模型克服了现有 Fourier 方法对 DNA 序列长度的限制，并且能够提高实现效率。最后，利用该模型对未被注释的 DNA 序列的编码区域进行了预测。两种预测方法相结合有助于提高基因预测的精度，同时使后期基因识别更具有针对性。 4. 延展性问题  针对目前常用的基因识别算法对特征选取的主观性，建立了基因

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

DNA 序列表示及基因识别方法研究.pdfVIP