网站大量收购独家精品文档,联系QQ:2885784924

blast-introduction试卷.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据库搜索相似序列 ;数据库搜索相似序列的意义;BLAST算法;BLAST算法本身很简单,它的基本要点是序列片段对(segment pair)的概念。所谓序列片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。 BLAST算法首先找出代查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,然后对具有一定长度的片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,称高分值片段对(high-scoring pairs, HSPs)。这就是无空位的BLAST比对算法的基础,也是BLAST输出结果的特征。 ;最初的BLAST程序只能用于无空位的比对。经验表明比对结果通常会出现一些无空位但不连续的区域,不难想象,有些高分值片段对可以通过一些相似性较低且有空位的片段连接起来,组成了一些更长的或许更具实际生物学意义的比对。 基于上述思路,BLAST算法经过改进允许空位插入(Altshul等,1997)。为缩短对数据库初始搜索的时间,新的算法只找出一个最好的高分值片段,并以此为基础运用动态规划方法将这一片段向两端延伸,最终产生的比对结果可能有空位插入。由于免去了查找所有高分值片段对的步骤,新的算法比原算法快3倍。对BLAST算法的进一步扩充,可以考虑双序列比对和多序列比对的有效结合;BLAST算法;1、BLAST;BLAST是一个序列数据库搜索程序家族 其中有许多特定用途的程序;/BLAST;BLAST系列程序选择流程;数据库搜索相似序列;BLASTp;BLAST 格式;BLAST 结果;BLAST 结果 (1);BLAST 结果 (2);BLAST 结果 (3);BLAST 结果 (4);BLAST 结果 (5);Mega-blast;/BLAST;PSI-BLAST;在全序列数据库中 搜索相似的序列;两条序列间的查询;BLAST2;/BLAST基因组搜索;微生物基因组;微生物基因组;微生物基因组;微生物基因组;提供 BLAST的若干网站;本地 BLAST;WU-BLAST;实例一: 恐龙蛋DNA研究中的一场争论;恐龙蛋化石中的18s rDNA ;BLAST结果;18sDNA 系统树;结论;2、FASTA算法;FASTA算法; 蛋白质序列数据库搜索时,短片段的长度一般是1-2个残基长;DNA序列数据库搜索时,通常采用稍大点的值,最多为6个碱基。通过比较两个序列中的短片段及其相对位置,可以构成一个动态规划矩阵的对角线方向上的一些匹配片段。 FastA程序采用渐进(heuristic approach)算法将位于同一对角线上相互接近的短片段连接起来。也就是说,通过不匹配的残基将这些匹配残基片段连接起来,以便得到较长的相似性片段。这就意味着,FastA输出结果中允许出现不匹配残基。这和BLAST程序中的成对片段类似。如果匹配区域很多,FastA利用动态规划算法在这些匹配区域间插入空位。 ;以两条氨基酸序列的比较为例介绍算法的基本思路,算法可以分为4步:;图6 序列FLWRTW和STWKTWT比较形成的对角线图; 对于图中每一条完整的对角线(即同一偏移)上的一致片段,如果片段间距小于用户界定的界限,则将片段连接起来作为一条一致片段。. ; 对这些片段进行计分,每一对对应的元素,一致的加分,不一致的扣分。完成了所有一致片段的计分后,选出10条分值最高的片段进入下一轮计算,如图B; FASTA将这10对片段重新计分。这轮计分允许保守突变,对蛋白质来就,就是使用PAM250等替换矩阵。简单地说,替换矩阵就是对应于20×20种氨基酸替换(比如R替换成P)的计分规则所构成的20×20的矩阵。这种矩阵是从蛋白质进化实例中总结出来的经验矩阵,它给予进化上相对保守的氨基酸替换比非保守的替换更高的分值。在重新计算分值后,在每一条这样的片段中找出分值最高的子片段,作为“初始区域”(initial region)进入下一步。在initial region中,最高的分值计为initl。 ; 在这一步中,FASTA选出分值高于用户确定的界限且相互之间不重叠的初始区域,并尝试将这些初始区域连接起来。当然,由于连接而出现的缺失和插入情况要作相应的扣分。FASTA在这一步才考虑插入和缺失的情况,最终找出能够得到的最高分值的初始区域或连接起来的数个初始区域。这一步计算出的最高分计为initn。; 以initl片段或(initn的片段)为中心,向前后延伸一定的长度。在这样一个区域中(见图中虚线间的区域),应用Smith-Waterman算法进行重新对齐,最终的得分计为opt;FastA的最新版本是FastA3软件包,下表2列出FastA3家族所有成员:;FastA使用界面

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档