- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第三章:序列比较(第二部分)
BLAST 搜索:NCBI BLASTp
我 们 就 以 NCBI 的 BLAST 工 具 为 例 尝 试 一 下 不 同 算 法 的 BLAST 工 具
。BLAST 链接在 NCBI 主 页右侧很 显 眼的地 方。我们做
BLASTp(Protein BLAST),也就是用蛋白质序列搜索蛋白质序列数据库。
在 BLASTp 输入界面里(图 1):1)输入待搜索的蛋白质序列,这条序列可以在示例文
件 blast.fasta 里面找到。2)指定搜索跟输入序列哪部分相似的序列,如果空着就是全长搜索。
3)给搜索任务起一个名字,如果输入的是 FASTA 格式的序列,那么在输入框里面点一下,
序列的名字就会被自动识别出来。4)如果在 Align two or more sequences 前面打勾的话,可
以同时提交多个 BLAST 任务。
图 1. NCBI BLASTp 输入界面上半部分
在输入界面的下部(图 2)选择:1)被搜索的数据库。我们看到,虽然是 NCBI 的 BLAST
工具,可以选择的数据库却不只 NCBI 下属的数据库,还包括其他组织的数据库,比如 PDB,
Swissprot。事实上,各大数据库网站的 BLAST 工具都可以实现跨平台搜索。我们这次用 NCBI
的 BLAST 工具搜索 SwissProt 数据库。2)Organism 可以把搜索范围限定在某一特定物种内,
或者排除某一物种。3)在算法选择这一栏里,有之前提到的三种不同的 BLAST 算法,标准
BLAST,PSI-BLAST 和 PHI-BLAST。这一次我们先尝试标准 BLAST。所有参数设置完毕之
后,点 BLAST。
图 2. NCBI BLASTp 输入界面下半部分
做 BLAST 搜索是需要点儿耐心的,不过也不用担心,网速跟得上的话,三五分钟应该
就会返回结果。
图 3 是搜索结果。最上面是第一部分搜索任务描述部分。输入界面里设置的各种参数都
会在这里列出。
第二部分(Graphic Summary)是图形化搜索结果部分。在图形化搜索结果里,BLAST
工具识别出输入序列的第 25 到第 170 个氨基酸这一段属于 TIR 蛋白质家族。这部分里彩色
线条构成的图告诉我们,一共从数据库中找到 50 个 hits,也就是高分匹配片段。注意这些
线代表的是 50 个高分匹配片段而不是 50 条序列。一个高分匹配片段有可能是一条全长的序
列,也就是全长匹配,也有可能只是某条序列的一部分,也就是局部匹配。代表这些高分匹
配片段的线拥有不同颜色和不同的长短。如果把鼠标放到某一条线上,可以看到这条匹配片
段的具体信息,包括他所在序列的数据库编号,序列的名字,匹配得分,期望值 E 值。匹
配得分在 200 以上的用红线表示,80 到 200 之间的用粉线,50 到 80 的绿线,40-50 的蓝线,
40 以下的黑线,所以颜色反映的是匹配的好坏程度。如果某一个高分匹配片段和输入序列
是从头到尾匹配,就是全长的线,比如最上面的三条红线。如果只匹配输入序列的一部分,
则是一条短线,短线所在的位置就是与输入序列匹配的位置。
第三部分(Descriptions)是这 50 个高分匹配片段所在序列的详细信息列表。每条序列
都有一个匹配得分和覆盖度。这两项决定了第二部分彩图中每条线的颜色和长短。除了匹配
得分和覆盖度,表中还列出了其他指标。尤为重要的是 E-value。E-value 也叫做期望值或 E
值。E 值越接近零,说明输入序列与当前这条序列为同一条序列的可能性越大。第三部分的
表就是根据 E 值由低到高
文档评论(0)