搜索比对算法的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索比对算法的研究

搜索比对算法的研究   摘要:在蛋白质结构预测算法中同源建模被认为是当前最成功的预测算法,文中指出了同源建模算法存在的缺陷,并且针对这一缺陷设计出改进算法。基于结构信息的目标模板比对算法,对搜索敏感度和比对准确度等方面有所提高。   关键词:同源建模;序列比对;结构比对   中图分类号:TP301 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02   1 同源建模算法   同源建模算法的主要理论依据是高度保守的同源蛋白质三级结构,所以通过这点可以从已知蛋白质的空间结构推测出目标蛋白质的空间结构。同源建模可以概括为模板查找、目标-模板比对、建模和检查优化等四个步骤。   模板查找:要使用同源建模方法,我们至少需要知道一个已知三维结构的蛋白质作为目标序列的比对模板。我们将目标序列与从PDB(蛋白质数据库)中提取出的序列数据库进行比较来确定能否用同源建模方法来预测。这可以使用序列比较软件实现,如FastA、BLAST和PSI-BLAST等。   目标-模板比对:既然我们已经得到目标序列的比对模版,那么构造目标-模板的序列比对就是我们下一步需要得到的输入数据。而序列比对也作为研究很多其他问题的前提和基础,最终结果在很大程度上要受序列比对结果的影响,可以说它是同源建模方法的核心所在。而目前构建序列比对的方法大概有以下几类:双序列比对:指只从序列信息构造两条序列的比对算法,这类算法的代表有基于动态规划算法的局部比对算法(如Smith-Waterman)和全局比对算法(如Needleman-Wunch)、启发式算法(如BLAST、FASTA等)和基于隐马尔可夫模型(如HUMMER)等;多序列比对:是指三条以上的序列进行比对,由于同时进行多条序列比对是一个NP问题,所以目前大多数算法都是基于渐进比对的思想,对所有输入序列构造两两序列比对构建距离矩阵,之后根据距离矩阵构造序列之间的进化指导树,最后据指导树的拓扑由叶子节点到根节点逐步添加序列到比对中知道所有的序列都加入为止,由于还没有一个万能的程序,如何构造参考比对集合以及构造最终比对就成为该问题的研究热点。使用较为广泛的多序列比对软件有:T-Coffee、CLUSTALW等;基于特殊位点的比对:通过统计分析同源序列的序列构成,逐个计算每个位置上出现各种氨基酸的可能性,并给出替换分数,构造新的打分矩阵,这里与两两序列比对相同,可使用动态规划或者启发式算法来实现。构造profile可以有sequence-profile alignment(只对模板序列构造profile,并将它与目标序列进行比对)和profile-profile alignment(对模板序列和目标序列都分别构造profile,两个profile相结合得到最终比对)两种比对方式,而目前构造profile方法也是对profile alignment的研究的焦点所在,profile alignment的主要软件有profit、PSI-BLAST等。   建模:得到上面的比对结果,旋转平移模板结构,尽可能地使它们之间的位置重合,进而确定同源蛋白质的保守区(SCRs)和相应的框架(framework)结构。之后将同源体保守区的第一条序列与目标序列匹配,选取目标序列上的高相似度区域,定义为目标蛋白质的保守区SCRs;然后主链结构的建模,这主要有两种方法:刚体装配法:同源蛋白质族保守区的相应各片段,把与目标蛋白质保守区序列有最高相似度的片段选取为目标结构;加权平均法:采用加权方案,将构成基架的同源结构族的平均结构选取为目标结构。之后进行变异区(SVRs)(即非保守区)的主链建模。由于非保守区主链结构难以预测,数据库查询和系统搜索方法是目前的主要方法。最后侧链结构建模,侧链的建模方法大多是基于旋转构象库。当然除了旋转构象库的方法,还有基于微扰突变的遗传算法和基于神经网络的侧链结构预测等方法。   检查优化:对得到的原始蛋白质结构模型进行检查并且分子力学及分子动力学优化,以消除其中的不合理冲突。   2 基于三维结构信息的目标-模板比对算法   搜索比对算法这一生物信息学中的经典问题,也有很多人做了相关研究,但是目前已有的算法多是根据序列相似度进行的,其结果准确性也受所选择的打分函数以及空位罚分机制所影响。profile比对虽然能够提高序列搜索的准确性,也能做到排除部分非同源序列,但它对拥有较高的结构相似度而有较低的序列相似度的同源序列搜索效果不好。由于结构域聚类数据库包含了大量的蛋白质结构信息和多维结构比对等属性,基于这些原理和结构域聚类数据库的这些属性,我们进而设计出了基于蛋白质结构信息的目标-模板搜索比对算法。   2.1 算法思想概述   为便于算法思想的描述,我们作如下定义:

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档