基于结构信息的RNA多序列比对_临床医学论文.docVIP

下载本文档

10
0
约1.22万字
约 11页
2017-08-16 发布于北京
举报
版权申诉

基于结构信息的RNA多序列比对_临床医学论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于结构信息的RNA多序列比对_临床医学论文.doc

基于结构信息的RNA多序列比对临床医学论文基于结构信息的RNA多序列比对临床医学论文【摘要】本研究提出了一种考虑了结构信息的同源RNA多序列比对算法，它先利用热力学方法计算出每条序列的配对概率矩阵，得到结构信息，由此构造各条序列的结构信息矢量，结合传统序列比对方法，提出优化目标函数，采用动态规划算法和渐进比对得到最后的多序列比对。试验证实了该方法的有效性。【关键词】多序列比对；RNA二级结构；配对概率矩阵；结构信息矢量；动态规划 Abstract：We presented a RNA sequences multi-alignment method based on structural information. Firstly, we computed base pairing probability of every sequence by thermodynamic method. Secondly, the structural information vector was constructed through gotten structure information and been pair alignment each other, as result, a guide tree was constructed. Finally, combine traditional sequence alignment, we presented the objective function and got the final multi-alignment by dynamic programming algorithm and progressive alignment with guide tree. We test validity of our method on 7 sequences of IRE through comparing with Clutal W and T-Coffee. Key words：Multiple sequences alignment; Secondary structures; Base pairing probability; Structural information vector; Dynamic programming algorithm 1 引言多序列比对是生物序列分析的基础，传统的多序列比对（如ClustralW［1］、T-Coffee［2］）通常用于数据库搜索或是结构特点探测，但是对RNA分子，这些方法就不适用了，因为RNA分子的功能主要由其二级结构确定，在进化过程中RNA的结构比序列具有更强的保守性，许多RNA有关的分析研究也正是应用了这一特点，如RNA结构分析［3-5］、RNA同源搜索［6］、非编码RNA探测［7-8］和基于RNA的系统进化推断［9］。而这些RNA序列分析方法都是要求先进行准确的多序列比对，这里的准确，就是指序列比对不仅要考虑序列信息，而且要更多的考虑结构信息。基于序列和结构信息的RNA多序列比对一般可以分为两类［10］：概率方法和非概率方法。概率方法基于上下文无关语法（SCFG），要求一个初始比对作为输入，而输出的质量对初始比对的依靠性较强。该方法被用于对RNA家族进行建模或是通过比较分析来预测二级结构，比如Cove［11］、RNACAD［12］和Pfold［4］。非概率方法，像MARNA［10］，RNAlign［13］，PMmulti［14］，这种方法先进行双序列比对，然后渐进的完成多序列比对。我们提出的方法属于后者。 2 算法 Sankoff［15］首先提出同时进行序列比对和结构预测，但是该算法的时间复杂度为O(N6)，空间复杂度为O(N4)，其中N为序列长度。已有的几个采用此方法的程序都使用了不同的限制，比如，Foldalign［16］利用了核心比对和贪婪算法，而Dynalign［17］则是通过限制两个序列间的最大距离来减少复杂度。我们采用类似Sankoff算法的思路，但不是为了同时进行序列比对和结构预测，只是为了得到考虑结构信息的多序列比对。基本步骤是：首先，对每条序列，分别计算出其碱基配对概率矩阵，然后将这些矩阵变换成易于比较的结构信息矢量，通过两两比对这些矢量，构造出一个比对指导树，最后根据比对指导树，渐进的得到多序列比对。 2.1 碱基对配对概率矩阵为了得到配对概率矩阵，首先要进行划分函数的计算，McCaskill［18］给出了RNA二级结构的划分函数的概念。RNA二级结构的划分函数Q定义为： Q=∑Se-△G(S)/RT(1) 式中，ΔG是结构的Gibbs自由能变化量，R是气体常