- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Journal of
B iom athem atics
生 物 数 学 学 报 2008,23(4):743—749
基于动态权重匹配的 RNA折叠算法
陆 健 刘海军 姚 勤 王 勇 陈克平
f江苏大学 生命科学研究院, 江苏 镇江 212013)
摘 要:本文在最大权重匹配 (MaximumWeightedMatching,MWM)算法的基崩f上引入
与茎区长度相关的动态权重,采用一种递归算法逐步寻找具有最大权重和的茎区,从而最终确定
RNA的二级结构.该算法避开了繁杂的自由能计算,同样也能达到较高的预测精确度并且还能
预测到大多数类型的潜在假结 (pseudoknots).
关键词:RNA二级结构;假结;动态权重匹配
中图分类号:Q752 MR 分类号t92D20;92C40 文献标识码:A
文章编号:1001-9626(2008)04-0743-07
0 引 言
随着近年来对RNA功能研究的日益深入,人们对RNA结构预测和相关算法研究也越来
越重视.从采用的数据量出发可以把 目前的大多数RNA二级结构预测方法分成两类:一是从
头预测 (abinitioprediction)的方法,这类方法只需一条序列;一是比较序列分析方法,这类方
法需要一组若干条具有类似结构的同源RNA序列.从头预测方法包括以最小自由能方法为代
表的动态规划算法,以及一些启发式的茎区组合优化算法.最小自由能方法计算复杂度高,其
算法的空间复杂度为O(n0),时间复杂度为O(n),而且不能预测假结 1【】.某些茎区优化算法
如遗传算法、模拟退火算法因为无法保证达到全局最优所以算法精确度不高,这类算法实现起
来也比较复杂 2【3】.比较序列分析方法预测的结果最为可靠,可它需要一定数量的同源序列来
做对比,而且要求这些同源序列之间要有足够的相似程度.在结构分析之前比较序列分析方法
还要对初始序列进行多序列比对,这也是一个复杂的计算过程甚至还需要一定的手工操作 14J.
另外还有一些算法介于这两类方法之间,其中典型的就是最大权重匹配算法,它先利用比对后
的同源序列来统计生成各位点之间的匹配权重矩阵,然后再依据此权重矩阵预测同源的新序
列的结构 】.该算法能在多项式时间内对二级结构、假结甚至更复杂的碱基配对关系进行预
测,但受到权重矩阵准确性的限制,它在预测准确度上的表现还不是很稳定.尤其是当比对序
收稿 日期:2006-11—20
基金项目:江苏高校自然科学研究计划项目(06KJB18o016);国家重点基础研究发展计划(973计划)(2005CBl210O0)
江苏大学青年自然科学基金 (JDQ03011).
作者简介:陆 健 (1977f),男,江苏宜兴人,博士研究生. E-maihlujian@ujs.edu.ca
生 物 数 学 学 报 第 23卷
列数量有限或同源性不强时,以此得出的权重矩阵会导致预测结果的假阳性增高 I7].
在本文中,我们提出了一种基于动态权重匹配 (DynamicWeightedMatching,DWM )
的RNA折叠算法,通过递归逐步寻找具有最大权重和的茎区来确定 RNA二级结构,同时还
增加了一个二次递归来预测潜在的假结.我们引入了一项与茎区长度相关的动态权重,并与碱
基配对的固定经验权重值相结合,以此来作为我们算法的优化准则,从而避开了复杂的自由
能计算.两重递归直接寻找最优的RNA二级结构和假结,无需动态规划算法中的回溯过程,
算法的空间复杂度仅为 O(n)而时间复杂度则低于O(n0log礼).这些都在很大程度上简化了
计算过程,同时还能预测到大多数类型的潜在假结,并且也达到了较高的预测准确度.我们
从GenBank中选取了一组tRNA和一组非编码RNA(noncodingRNA)序列对该算法进行了测
文档评论(0)