- 4
- 0
- 约3.69万字
- 约 27页
- 2019-09-13 发布于江苏
- 举报
参赛密码
(由组委会填写)
第九届 “华为杯”全国研究生数学建模竞赛
题 目 基因识别问题及其算法实现
摘 要:
本文主要利用基因编码序列的频谱 3-周期性,使用信号处理和分析的手段
处理 DNA 序列,运用已知编码区域的基因样本,建立了基因编码区域识别的
数学模型,并应用此模型对 6 个未知的 DNA 样本进行了编码区域预测。最后
讨论了基于信号处理的 DNA 频域分析法在检测基因突变领域上的应用。
对于问题一,我们推导了基因序列的 Voss 映射、Z-curve 和实数映射在计
算 N/3 频谱峰值和总功率谱平均值中的快速算法。使用碱基在子序列出现的频
数进行计算,避免了 DFT 的繁杂运算,特别的是当连续的滑动窗口或移动序列
时,出现频数可以由之前频数简单处理得到,使得频谱与信噪比的求解为常数
复杂度。讨论了各数值映射关系的优劣,并决定在建模中使用 Voss 映射。
对于问题二,我们定义了识别灵敏度和识别特征度两个指标量来定量的描
述识别算法的优劣。对于基因识别算法模型中的重要参量——判别阈值,采用
“大范围、小步进”的方式遍历搜索。对于每一个判别阈值分别求出相应的灵
敏度和特征度,并分别给出了具有工程意义的 90%、80%、70%特征度意义下,
灵敏度最优估计阈值。最终将获得阈值在同一物种 DNA 样本中进行编码区域
识别验证,取得了预期的效果,说明了阈值确定方法的合理性。
对于问题三,我们结合了已有的识别算法,针对识别序列破碎、端点模糊
等问题,在计算过程中加入一些滤波、填补、检测调整等辅助方式,获得了较
为精确的外显子识别算法,并应用新识别算法对已知编码区序列进行验证,取
得十分良好的效果。最终应用新算法于6 个未被注释的 DNA 序列的编码区域
预估中,预测出相应的编码区域。
对于拓展性研究,我们探讨了 DNA 频域分析法在检测基因突变领域上的
应用。通过对 DNA 序列中单个核苷酸进行替换、删除、插入等操作,根据 DNA
N
序列频谱的变化,观察P[ ] 幅值的衰减或者产生的杂散谱幅值,大概分析出基
3
因突变的核苷酸位置。对接下来深入研究基因突变检测具有指导性的意义。
关键词: 频谱 3-周期性 阈值确定 编码区预测 基因突变识别
- 2 -
基因识别问题及其算法实现
1 问题来源
对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子
实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932
—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991 年曾经指出: “现
在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新
的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后
再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划
的顺利完成,通过物理或数学的方法从大量的DNA 序列中获取丰富的生物信息,
对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是 目
前生物信息学领域的一个研究热点。
对给定的 DNA 序列,怎么去识别出其中的编码序列(即外显子),也称为
基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、
最首要的问题。
研究表明,在基因外显子序列的功率谱曲线中,在 频率处具有较大的频
谱峰值(Peak Value),反映了在基因外显子片段上,四种核苷酸符号在序列的三
个子序列上分布的“非均衡性”。通常认为这种现象源于编码基因序列“密码
子”(coden )使用的偏向性(bia
您可能关注的文档
最近下载
- 九上期末考试数学模拟.pdf VIP
- 2025年体育用品绿色技术专利行业报告.docx
- 2025年内蒙古呼和浩特市政府采购评审专家考试真题(附含答案).docx VIP
- 2023-2025中考化学真题分类汇编:专题05 元素考点01 元素及元素周期表.docx VIP
- 2025年内蒙古呼和浩特市政府采购评审专家考试真题含答案.docx VIP
- 98浙J30 卷帘门-标准图集.docx VIP
- 三年(2019-2021)中考真题化学-考点08原子结构(全国通用).docx VIP
- 2025年内蒙古呼和浩特市政府采购评审专家考试测试题及答案.docx VIP
- 二零二五版合同Amazon店铺代运营协议模板.docx VIP
- 《膝关节教学》课件.ppt VIP
原创力文档

文档评论(0)