基于动态权重匹配的RNA折叠算法.pdfVIP

下载本文档

9
0
约1.06万字
约 7页
2017-08-10 发布于北京
举报
版权申诉

基于动态权重匹配的RNA折叠算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Journal of B iom athem atics 生物数学学报 2008，23(4)：743—749 基于动态权重匹配的 RNA折叠算法陆健刘海军姚勤王勇陈克平 f江苏大学生命科学研究院，江苏镇江 212013) 摘要：本文在最大权重匹配 (MaximumWeightedMatching，MWM)算法的基崩f上引入与茎区长度相关的动态权重，采用一种递归算法逐步寻找具有最大权重和的茎区，从而最终确定 RNA的二级结构．该算法避开了繁杂的自由能计算，同样也能达到较高的预测精确度并且还能预测到大多数类型的潜在假结 (pseudoknots)．关键词：RNA二级结构；假结；动态权重匹配中图分类号：Q752 MR 分类号t92D20；92C40 文献标识码：A 文章编号：1001-9626(2008)04-0743-07 0 引言随着近年来对RNA功能研究的日益深入，人们对RNA结构预测和相关算法研究也越来越重视．从采用的数据量出发可以把目前的大多数RNA二级结构预测方法分成两类：一是从头预测 (abinitioprediction)的方法，这类方法只需一条序列；一是比较序列分析方法，这类方法需要一组若干条具有类似结构的同源RNA序列．从头预测方法包括以最小自由能方法为代表的动态规划算法，以及一些启发式的茎区组合优化算法．最小自由能方法计算复杂度高，其算法的空间复杂度为O(n0)，时间复杂度为O(n)，而且不能预测假结 1【】．某些茎区优化算法如遗传算法、模拟退火算法因为无法保证达到全局最优所以算法精确度不高，这类算法实现起来也比较复杂 2【3】．比较序列分析方法预测的结果最为可靠，可它需要一定数量的同源序列来做对比，而且要求这些同源序列之间要有足够的相似程度．在结构分析之前比较序列分析方法还要对初始序列进行多序列比对，这也是一个复杂的计算过程甚至还需要一定的手工操作 14J．另外还有一些算法介于这两类方法之间，其中典型的就是最大权重匹配算法，它先利用比对后的同源序列来统计生成各位点之间的匹配权重矩阵，然后再依据此权重矩阵预测同源的新序列的结构】．该算法能在多项式时间内对二级结构、假结甚至更复杂的碱基配对关系进行预测，但受到权重矩阵准确性的限制，它在预测准确度上的表现还不是很稳定．尤其是当比对序收稿日期：2006-11—20 基金项目：江苏高校自然科学研究计划项目(06KJB18o016)；国家重点基础研究发展计划(973计划)(2005CBl210O0) 江苏大学青年自然科学基金 (JDQ03011)．作者简介：陆健 (1977f)，男，江苏宜兴人，博士研究生． E-maihlujian@ujs．edu．ca 生物数学学报第 23卷列数量有限或同源性不强时，以此得出的权重矩阵会导致预测结果的假阳性增高 I7]．在本文中，我们提出了一种基于动态权重匹配 (DynamicWeightedMatching，DWM ) 的RNA折叠算法，通过递归逐步寻找具有最大权重和的茎区来确定 RNA二级结构，同时还增加了一个二次递归来预测潜在的假结．我们引入了一项与茎区长度相关的动态权重，并与碱基配对的固定经验权重值相结合，以此来作为我们算法的优化准则，从而避开了复杂的自由能计算．两重递归直接寻找最优的RNA二级结构和假结，无需动态规划算法中的回溯过程，算法的空间复杂度仅为 O(n)而时间复杂度则低于O(n0log礼)．这些都在很大程度上简化了计算过程，同时还能预测到大多数类型的潜在假结，并且也达到了较高的预测准确度．我们从GenBank中选取了一组tRNA和一组非编码RNA(noncodingRNA)序列对该算法进行了测