- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第三章:序列比较(第二部分)
BLAST 搜索:BLAST 是怎么样工作的?
这一节我们来看这个早就听说过,但是还一直没见过的 BLAST。之前我们提到,从一
堆麻将牌中找出一对儿二条并不难。但是从数据库中找出一对儿相似的序列,就没那么简单
了。我们已经学会如何做双序列比对,那可不可以拿一条序列和数据库中的每条序列逐一进
行双序列比对,通过这种方法来找相似呢?这确实是一个办法。这样我们只要根据比对后得
出的相似度排序,就可以找到最相似的那条序列了。但是,这种方法因计算耗时过长,只是
理论上可行而已。之前我们用 EMBL 的双序列比对工具做全局比对,虽然很快就出结果了,
但至少也要经历一两秒钟的时间。而数据库中有几百万条序列,全部比对一遍,耗时太长。
因此,我们需要快速的数据库相似性搜索工具。目前世界上广泛使用的就是 BLAST。它可
以在尽可能准确的前提下,快速的从数据库中找到跟某一条序列相似的序列。
国际上著名的生物数据库网站都提供 BLAST 在线搜索服务。在第二章数据库这一章里,
搜索序列都是在搜索条里输入关键词,包括序列的名字或者序列的编号。但是,在实际应用
中,更多时候,输入值是一条序列。想要找到这条序列在数据库中的相关注释,是不能把这
条序列直接放到搜索条里搜索的。这个时候就得用 BLAST 搜索了!
BLAST 是 Basic Local Alignment Search Tool 的首字母缩写,直译过来就是基本局部比对
搜索工具。BLAST 的基本原理很简单,要点是片段对的概念。所谓片段对是指两个给定序
列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。图 1-A 中方框里的就
是两个片段对。BLAST 从头至尾将两条序列扫描一遍并找出所有片段对,并在允许的阈值
范围内对片段对进行延伸,最终找出高分值片段对(high-scoring pairs, HSPs)(图 1-B)。这
样的计算复杂度是 n 的一次方(n 是序列的长度)。如果做双序列比对话需要构建一个 n 乘
以 n 的表格,计算复杂度是 n 的二次方。所以找高分值片段对比做双序列比对节省了大量的
时间,当然,前提是牺牲了一定的准确度。
图 1. 片段对及高分值片段对
您可能关注的文档
- 1.2热力学第一定律、焓和焓变.pdf
- 1.2探索生物信息学神秘岛-01.pdf
- 1.3 偏差生物化学.pdf
- 1.3 肉足纲代表动物及其主要特征.pdf
- 1.3热化学方程式、盖斯定律.pdf
- 1.4 数据的取舍和运算规则.pdf
- 1.4生成焓、化学反应热效应计算.pdf
- 1.4这门课学神马.pdf
- 1.5 纤毛纲代表动物及其主要特征.pdf
- 1.7第一章小结应用电化学.pdf
- 3.9多序列比对介绍-01-用途和算法.pdf
- 3.10在线多序列比对工具-01-EMBL Clustal Omega.pdf
- 3.8BLAST搜索-06-其他BLAST生物化学.pdf
- 3.10在线多序列比对工具-02-TCOFFEE Expresso.pdf
- 3.8BLAST搜索-03-NCBI_BLASTp生物化学.pdf
- 3.10在线多序列比对工具-03-多序列比对的保存格式.pdf
- 3.11多序列比对的编辑和发布-02-Jalview的编辑和发布.pdf
- 3.12寻找保守区域-01-序列标识图WebLogo.pdf
- 3.12寻找保守区域-02-序列基序MEME.pdf
- 3.12寻找保守区域-03-PRINTS指纹图谱数据库.pdf
文档评论(0)