- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
27 -
基因识别问题及其算法实现
摘 要:
本文运用信号系统理论、相关性分析、多目标规划、fisher判别等知识研究了基因识别问题,提出了一种基于频谱峰值位置的基因识别方法。
针对问题一,总功率谱的平均值通过Parseval定理在时域中计算,功率谱和信噪比转换为矩阵乘法运算,但矩阵乘法运算量也很大。统计1、2、3的倍数位置上各碱基数目然后与相乘可减去计算量。利用NC_012920_1基因数据求功率谱和信噪比,三种方法所需时间分别是3.7s、2.9s、0.36s。利用Z-curve映射和Voss映射的关系式,求得Z-curve映射的频谱是Voss的4倍,信噪比为4/3倍,同时发现Z-curve映射具有更强的生物意义。对实数映射进行相关分析得到外显子和内含子频谱图明显不同,可用来识别两者。
针对问题二,利用外显子的频谱3-周期性,以保守的阈值判别基因序列,低于阈值的基因,以很大概率为内含子,直接去除,剩下序列中外显子比例提高,增强3-周期性;该方法采用自适应的阈值,具有更强的适应性并通过实验得到验证。我们选取了四个性能指标:敏感度、特异度、近似相关系数、相关系数,通过加权将多指标转换为单一的综合指标。考虑到评价近似相关系数、相关系数为综合指标,将四者权值分别设为40%、40%、10%和10%。
针对问题三,创新性地提出了一种基于频谱峰值位置的基因识别方法,该方法有较高的性能指标,对部分基因的外显子端点能作出较为准确的识别,分析了影响该方法性能的因素,并对未注释的DNA序列进行了编码区域的预测。提出了一种通过添加外显子基因的方式改善某些序列3-周期性质不显著的问题。
针对问题四,考虑到基因序列的其他特性,如碱基组成成分,碱基位置相关性,密码子使用偏好性等,利用前面三个特征再结合3-周期性构造统计特征量;使用fisher判别的方法,对原数据进行坐标变换,再借助方差分析的思想构造一个判别函数。对于可能突变了的基因,若有其正常序列,进行序列比对即可;若无则借助频谱和其他特征量进行综合判别。
最后,对本文建立的几个模型进行评价,提出了推广的方向。
关键词:峰值位置识别 3-周期性 Parseval定理 自适应阈值 fisher判别
目 录
TOC \o 1-3 \h \z \u 1、问题重述 - 1 -
1.1、相关材料 - 1 -
1.2、问题提出 - 1 -
2、问题分析 - 2 -
3、模型假设 - 3 -
4、符号说明 - 3 -
5、模型的建立与求解 - 4 -
5.1、问题1的模型建立及求解 - 4 -
5.1.1、功率谱与信噪比的快速计算方法 - 4 -
5.1.2、Z-curve映射Voss映射的关系 - 8 -
5.1.3、实数映射的关系 - 11 -
5.2、问题2的模型建立及求解 - 12 -
5.2.1、阈值的确定 - 12 -
5.2.1、评价标准 - 13 -
5.3、问题3的模型建立及求解 - 15 -
5.3.1、基于频谱峰值相对位置的基因识别方法的提出 - 15 -
5.3.2、峰值位置识别方法的实验结果 - 17 -
5.3.3、识别性能的影响因素 - 18 -
5.3.4、确定端点位置 - 21 -
5.3.5、 对未被注释的DNA序列编码区域的预测 - 22 -
5.4、问题4的模型建立及求解 - 23 -
5.4.1、识别基因编码序列的其它特征 - 23 -
5.4.2、识别基因编码序列的基因突变 - 25 -
6、模型的评价与改进 - 25 -
6.1、模型的评价 - 25 -
6.2、模型的推广 - 25 -
参考文献 - 25 -
1、问题重述
DNA是生物遗传信息的载体,其由腺嘌呤(Adenine,A),鸟嘌呤(Guanine,G),胞嘧啶(Cytosine,C),胸腺嘧啶(Thymine,T)这四种核苷酸按一定的顺序连接而成。这些长链上不仅包含制造人类全部蛋白质的信息,还有按照特定的时空模式把这些蛋白质装配成生物体的四维调控信息(三维空间和一维时间)。如何找到这些信息的编码方式和调节规律,是了解遗传本质的核心,也是医学研究的重要方向之一。
1.1、相关材料
其中带有遗传讯息的DNA片段称为基因(见图1第一行)。其他的DNA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分称为外显子,不编码的部分称为内含子。
DNA
DNA序列
外显子(Exon) 内含子(Intron)
基因(Gene)
文档评论(0)