Smith-Waterman算法相似性分数矩阵.ppt

下载文档 降价啦

222
0
约1.31万字
约 107页
2019-07-06 发布于天津
举报
版权申诉
保障服务

Smith-Waterman算法相似性分数矩阵.ppt

1、本文档共107页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据库搜索的基础是序列的相似性比对，即双序列比对(pairwise alignment)。新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(probe sequence)；通过数据库搜索得到的和检测序列具有一定相似性的序列称目标序列(subject sequence)。为了确定检测序列和一个已知基因家族之间的进化关系，在通过数据库搜索得到某些相似序列后，还需要判断其序列相似性程度。如果检测序列和目标序列的相似性程度很低，还必须通过其它方法或实验手段才能确定其是否属于同一基因家族比对统计学意义的评价--E值(E-Value) P值(P-Value)(概率值) BLAST程序中使用了E值而非P值，这主要是从直观和便于理解的角度考虑。比如E值等于5和10，总比P值等于0.993和0.99995更直观。但是当E0.01时，P值与E值接近相同参数K和λ可分别被简单地视为搜索步长(search spacesize)和计分系统(scoring system)的特征数 BLAST和FASTA数据库搜索策略一种思路是把数据库中的所有蛋白序列与待查序列的关系都视为相同重要，也就是说对于E值均较低的短和长序列，它们是等同重要的。FASTA程序近期版本便是采用这一策略另一种思路是把长序列视为比短序列更重要，因为长序列往往包括更多的特异功能域(domain)。如果对序列长度上进行相关优先处理，则在计算数据库序列长度为n的E值时，将乘以N/n，其中N为数据库中序列的总长度。E值的计算可简单地把整个数据库序列视为长度为N的单条序列。BLAST程序采用了这一策略 FASTA策略中E值的计算还需再乘上数据库的序列条数。如果考虑到核酸数据库的序列长度变化更大，则在DNA序列相似性搜索时，BLAST的策略可能会是合理的选择 BLAST仅通过部分而不是全部无关序列计算最适联配值，这赢得了搜索速度。因此，对于某一选定的替换矩阵和空位罚值，必须进行K和λ参数的预先估计，估计中使用真实序列，而非通过随机序列模型产生的模拟序列。这一估计的结果看来非常准确。一些数据库搜索程序，例如FASTA或其它基于Smith-Waterman算法的程序，在进行序列搜索时，会对数据库中的每条序列进行联配并给出联配值，这些值大部分与未知序列无关，但它们被用于了K和λ参数的估计。这一方法避免了随机序列模型因使用真实序列(real sequence)造成的随意性，但同时产生了使用相关序列估计参数的难题表6 数据库相似性搜索程序BLAST和FASTA程序清单注：n：核酸序列或核酸序列库；p：蛋白质序列或蛋白质序列库搜索实例 FastA和BLAST程序是目前最常用的基于局部相似性的数据库搜索程序，它们都基于查找完全匹配的短小序列片段，并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行，而不必依赖计算机硬件系统而解决运行速度问题。 BLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool的缩写，意为“基本局部相似性比对搜索工具”[Altschul, 1990, 1997]。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST程序之所以使用广泛，主要因为其运行速度比FastA等其它数据库搜索程序快，而改进后的BLAST程序允许空位的插入。可以访问NCBI的网站在线进行BLAST和FastA的搜索 BLAST搜索 BLAST算法本身很简单，它的基本要点是序列片段对（segment pair）的概念。所谓序列片段对是指两个给定序列中的一对子序列，它们的长度相等，且可以形成无空位的完全匹配。 BLAST算法首先找出代查序列和目标序列间所有匹配程度超过一定阈值的序列片段对，然后对具有一定长度的片段对根据给定的相似性阈值延伸，得到一定长度的相似性片段，称高分值片段对（high-scoring pairs, HSPs）。这就是无空位的BLAST比对算法的基础，也是BLAST输出结果的特征。 BLAST软件包实际上是综合在一起的一组程序，不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索，而且可以将检测序列翻译成蛋白质或将数据库翻译成蛋白质后再进行搜索，以提高搜索结果的灵敏度(表7)。表7 BLAST程序检测序列和数据库类型将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库核酸核酸 Tblastx 用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库核酸蛋白质 Tblastn 将核酸序列按6条链翻译成蛋