Blast使用技巧.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Blast使用技巧

* BLAST搜索策略调整 搜索结果过多情况 加Entrez限制条件 利用序列的一部分进行搜索 调整记分矩阵 调整期望值 搜索结果过少情况 去掉Entrez限制 提高期望值 使用更高PAM值或更低BLOSUM值的记分矩阵 高级BLAST搜索 * 进一步深入Blast 1.blast2 2.Megablast 3.Psi-blast 4.PHI-blast 5.其他(rpsblast,blastclust等) * Blast2 两个序列的blast比对,给定两个序列,相互进行blast比对。能快速检查两个序列是否存在相似性片断或者是否一致。这比起全序列比对要快很多。 * Megablast megablast采用了贪婪算法(greedy algorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。主要针对核酸序列。是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对。 * PSI-blast Position specific iterative BLAST (PSI-BLAST) 位点特异的迭代blast搜索,主要针对蛋白序列。第一次blast搜索后,结果中最相似的序列重新构建PSSM (位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代。 最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0。 这样可以提高blast搜索的灵敏度,有助于寻找远源相关的蛋白。 * PHI-BLAST 模式识别BLAST(Pattern hit intiated BLAST) PHI-BLAST能找到与查询序列相似的符合某种模式(pattern)的蛋白质序列 * Blast的算法基础 基本思想是:通过产生数量更少的但质量更好的增强点来提高速度。 BALST算法是建立在严格的统计学的基础之上的。它集中于发现具有较高的相似性的局部比对,且局部比对中不能含有空位(blast2.0引入了允许插入gap的算法)。 由于局部比对的限制条件,在大多数情况下比对会被分解为若干个明显的HSP(High-score Sequence Pairs)。 * Blast的算法流程 * The end * 生物序列的相似性搜索 -blast简介及其应用 * 生物序列的相似性 相似性(similarity): 是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较。 * 同源性(homology): 指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。 生物序列的同源性 * 相似性和同源性关系 序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。 * 数据库搜索目的 确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。 确定哪些蛋白质和基因在特定的物种中出现。 确定一个DNA或蛋白质序列身份。 发现新基因。 寻找对于一个蛋白质的功能或结构起关键作用的氨基酸残基。 * Blast简介(一) BLAST 是由美国国立生物技术信息中心(NCBI) 开发的一个基于序列相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。 * Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。 下表列出了主要的blast程序。 Blast简介(二) * 程序名 查询序列 数据库 搜索方法 Blastn 核酸 核酸 核酸序列搜索逐一核酸数据库中的序列 Blastp 蛋白质 蛋白质 蛋白质序列搜索逐一蛋白质数据库中的序列 Blastx 核酸 蛋白质 核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。 Tblastn 蛋白

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档