- 19
- 0
- 约11.69万字
- 约 54页
- 2019-09-13 发布于江苏
- 举报
参赛密码
(由组委会填写)
第九届“华为杯”全国研究生数学建模竞赛
第九届“华为杯”全国研究生数学建模竞赛
题 目 DNA 序列表示及基因识别方法研究
摘 要:
本文就 DNA 序列表示及基因识别算法实现的相关问题进行了研究,取得
了以下几方面的成果。
1. 功率谱与信噪比的快速算法
针对 Voss 映射,给出了计算基因序列功率谱或信噪比的快速 Fourier
变换和 AR 模型,仿真实验结果表明,计算效率有所提升。经过理论
推导,建立了功率谱、信噪比与 DNA 序列中核苷酸出现的频次之间的
关系,即为 SNR-F 公式:
N N N N
A C G T
R R R R R
A C G T
N N N N
利用该公式,计算功率谱与信噪比将不再需要离散Fourier 变换等计算
量较大的运算,只需要对 DNA 序列中核苷酸出现的频次进行统计,然
后进行简单的数值运算即可,有效提升了功率谱与信噪比的计算效率。
推导出了 Z-curve 映射的功率谱与信噪比和 Voss 映射下的功率谱与信
噪比之间的数值关系,即为:
E 4E 和R R
z z
并从理论基础、生物学意义和特征三个方面对 Z-curve 映射和 Voss 映
射进行了对比分析,刻画出了两种映射之间更深层次、更全面的关系。
经过理论推导,给出了一般的实数映射下功率谱、信噪比的快速计算
公式,将其功率谱、信噪比的计算简化为核苷酸出现频次的统计和简
单数值运算,极大简化了实数映射下功率谱与信噪比的计算。
2. 对不同物种类型基因的阈值确定
1
本文结合重采样技术,提出了最佳阈值确定算法,能为每一个特定种
类的生物推测其最佳阈值。模型能够针对不同生物基因的结构特征,
启发式地为其推断出一个最佳的预测阈值。仿真实验结果表明,附件
中所给的人和鼠类生物基因预测的最佳阈值为 1.7773,200 个哺乳动物
类的基因预测的最佳阈值为 2.18 。在合理确定窗口大小的基础上,利
用该最佳阈值能显著提高基于功率谱分析方法的基因预测精度,同时
还可用来预测该生物目前尚未标注确认的其它基因。
3. 基因识别算法的实现
针对基因识别算法的设计与实现问题,本文首先利用基于 AR 模型重
采样的基因预测方法对附件中给出的6 个未被注释的DNA 序列的编码
区域进行了预测。然后,结合数字滤波器与信噪比快速计算公式,提
出了一种基于 SNR-F 的基因识别模型。该模型克服了现有 Fourier 方
法对 DNA 序列长度的限制,并且能够提高实现效率。最后,利用该模
型对未被注释的 DNA 序列的编码区域进行了预测。两种预测方法相结
合有助于提高基因预测的精度,同时使后期基因识别更具有针对性。
4. 延展性问题
针对目前常用的基因识别算法对特征选取的主观性,建立了基因
您可能关注的文档
最近下载
- 4人剧本杀古堡奇遇剧本全内容(4人封闭).pdf VIP
- DB65_T 8022-2024 严寒和寒冷地区居住建筑节能设计标准.docx VIP
- 6—1柱脚及网架支座检查记录.doc VIP
- 2025年中国互联网+汽车用品项目创业计划书.docx VIP
- 开发新型有机硅防污涂料及其防腐性能分析.docx VIP
- 医院专科联盟建设经验.pptx VIP
- 广东省广州市海珠区2024-2025学年四年级上册期末考试数学试卷(含答案).docx VIP
- 村镇庙会节庆方案.docx VIP
- 江苏省扬州市2023-2024高二上学期期末物理试卷及答案.pdf VIP
- 蒂森克虏伯电梯 曳引轮钢丝绳安装布置.pptx
原创力文档

文档评论(0)