- 1
- 0
- 约6.45万字
- 约 26页
- 2019-09-13 发布于江苏
- 举报
第九届 “华为杯”全国研究生数学建模竞赛
第九届 “华为杯”全国研究生数学建模竞赛
题 目 基因识别问题及其算法实现
摘 要
基因识别问题是当前生物信息学的一个最基础的问题,目前采用信号处理与
分析方法来发现基因编码序列受到了广泛重视。本文主要基于 DNA 序列的信
噪比特征来进行基因识别。
首先,我们分别简化了Voss 映射、Z-curve 映射以及实数映射下对应的功率
谱和信噪比的计算公式,证明了Z-curve 映射与Voss 映射下对应的功率谱和信
噪比相差非零常数倍。同时,我们还对三种映射的信噪比曲线进行了分析比较,
并利用实例验证了碱基的3-周期现象与映射的选取无关。
其次,我们先通过一些统计数据,强调了不同物种类型应当有不同的基因阈
值。同时,我们提出了基于位置判定和基于距离平方的两种最优化方法,并给
出了一系列的评价指标,对代表性生物的阈值判定结果作了分析比较。
然后,我们给出了基于DNA 序列信噪比特征的基因识别算法,强调了这种
算法的合理性。同时,我们还通过实例验证了算法的有效性,并作了相应误差
分析。另外,我们还标出了附件中的六组基因数据外显子的具体位置。
最后,我们探讨了位于内含子和外显子之间的剪切位点的识别问题。根据剪
切位点区域的生物特性,我们引入了统计学中的隐马尔可夫过程,对剪切位点
的供点区域建立相应模型,得到隐马尔可夫模型的重估参数,用以识别 DNA
序列中的剪切位点。
关键词:信噪比;3-周期性;阈值;基因识别;剪切位点
- 2 -
一、问题重述
DNA 是生物体遗传信息载体,其化学名称为脱氧核糖核酸。DNA 是一种
长链聚合物,由腺嘌呤(A),鸟嘌呤(G),胸嘧啶(C),胸腺嘧啶(T)按一定顺序组成。
其中带有遗传讯息的DNA 片段称为基因。基因通常被划分为许多间隔的片段,
其中编码蛋白质的部分,即编码序列片段,称为外显子,不编码的部分称为内
含子。随着人类基因组计划的实施和顺利完成,基因预测成为生物信息学中最
基础,也是最首要的问题。对基因预测中,由于用统计预测方法在未知基因的
准确率明显下降,采用信号处理与分析方法来发现基因编码序列也受到广泛重
视。基于此,题目中特别介绍数字序列映射、DNA 序列信号3 周期特性的信噪
比(SNR)概念和基因识别的两种方法,在这两种方法中,其中一种是一是固定
长度窗口滑动法,另一是移动信噪比曲线识别法。最后提出以下4 个问题:
1.功率谱与信噪比的快速算法:
(1) 对Voss 映射,探求功率谱与信噪比的某种快速计算方法;
(2) Z-curve 映射和Voss 映射下的频谱与信噪比之间的关系;
(3) 对实数映射给出功率谱与信噪比的快速计算公式;
2.对不同物种类型基因的阈值确定
(1) 研究其阈值确定方法和阈值结果;
(2) 按照频谱或信噪比特征将编码与非编码区间分类的有效性,以及分类识别
时所产生的分类错误作适当分析;
3. 基因识别算法的实现
对所设计的基因识别算法的准确率做出适当评估,并将算法用于对附件中给
出的6 个未被注释的DNA 序列的编码区域的预测;
4. 延展性研究
对你们自己认为有价值的其它相关问题展开探讨
二、问题假设
1. 本文中用于验证分析的所有DNA 序列都是正常序列,未发生基因突变;
2. 本文中用于验证分析的所有DNA 序列中没有无用的序列;
3. 本文中用于验证分析的所有 DNA 序列中若外显子和内含子的位置已知,则
它们的位置完全无误;
- 1 -
4. DNA 序列中的外显子和内含子是紧邻的,它们之间不含有其它序列
三、问题分析
针对问题1,关键在于如何根据离散Fourier 变换以及DNA 指示序列的性
质得到不同映射下功率谱和信噪比的快速计算方法。对于不同的映射,它们所
反映的 DNA 的总体信息也不同,对映射之间的优劣比较有助于我们更好地理
解DNA 信息。
您可能关注的文档
最近下载
- 九上期末考试数学模拟.pdf VIP
- 2025年体育用品绿色技术专利行业报告.docx
- 2025年内蒙古呼和浩特市政府采购评审专家考试真题(附含答案).docx VIP
- 2023-2025中考化学真题分类汇编:专题05 元素考点01 元素及元素周期表.docx VIP
- 2025年内蒙古呼和浩特市政府采购评审专家考试真题含答案.docx VIP
- 98浙J30 卷帘门-标准图集.docx VIP
- 三年(2019-2021)中考真题化学-考点08原子结构(全国通用).docx VIP
- 2025年内蒙古呼和浩特市政府采购评审专家考试测试题及答案.docx VIP
- 二零二五版合同Amazon店铺代运营协议模板.docx VIP
- 《膝关节教学》课件.ppt VIP
原创力文档

文档评论(0)