- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
blast资料
生物序列的相似性搜索 -blast简介及其应用;内容提要;生物序列的相似性;同源性:
指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。;相似性和同源性关系;序列相似性比较和序列同源性分析;Blast简介(一); Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。
下表列出了主要的blast程序。;主要的blast程序;Blast相关的问题;Blast资源;Blast结果给出的信息;两种版本的Blast比较(一);单机版
单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)。获得程序的同时必须获取相应的数据库才能在本地进行blast分析。单机版的优点是可以处理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。;NCBI提供的Blast服务;Blast任务提交表单(一);Blast任务提交表单(二);Blast任务提交表单(三);提交任务;结果页面(一);结果页面(二);结果页面(三);一个具体的例子(blastp);具体步骤;分析过程(一);分析过程(二);分析过程(三);分析过程(四);分析过程(五);分析过程(六);分析过程(七);分析过程(八);为什么使用单机版的Blast?
1.特殊的数据库要求。
2.涉及序列的隐私与价值。
3.批量处理
4.其他原因??;单机版Blast的基本操作过程
1.下载单机版的Blast程序
/blast/executables/
目录下,下载对应的操作系统版本。
2.解压程序包(blast.tar.gz)
命令是:
$ tar zxvf blast.tar.gz ; 3.获取Blast数据库
a.直接从ncbi下载
/blast/db/
b.用Blast程序包提供的formatdb工具自己格 式化序列数据成数据库。
假设有一序列数据(sequence.fa,多序列,fasta格式),欲自己做成Blast数据库,典型的命令如下:;核酸序列:
$ ./formatdb –i sequence.fa –p F –o T/F –n db_name
蛋白序列:
$ ./formatdb –i sequence.fa –p T –o T/F –n db_name
;4.执行Blast比对
获得了单机版的Blast程序,解压开以后,如果有了相应的数据库(db),那么就可以开始执行Blast分析了。
单机版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一个程序里面。;以下是一个典型的blastn分析命令:
(待分析序列seq.fa,数据库nt_db)
$./blastall –p blastn –i seq.fa -d nt_db –w 7 –e 10 –o
程序名 输入 数据库 窗口 e值 输出
seq.blastn.out
该命令的意思是,对seq.fa文件中的核酸序列对nt_db数据库执行blastn搜索,窗口大小是7,e值限制是10,输出的结果保存到文件seq.blastn.out 中。;5.Blastall的常用参数
-p 程序名应该是blastn,blastp,blastx,tblastn,tblastx中的一个
-d 数据库名称,默认nr
-i 查询序列文件,默认stdin
-e E值限制,默认10
-o 结果输出文件,默认stdout
-F 过滤选项,默认T;进一步深入Blast;Blast2;Megablast ;PSI-blast;Blast的算法基础;Blast的算法流程;首先确定一个终止值S、步长参数w和一个阈值t。S值通常是基于统计学的原理指明一个预期的终止E值,然后软件会在考虑搜索背景性质的基础上计算出合适的S值。使要比对的序列中包含一个分值不小于S的HSP。;Blast的算法(二);Blast的算法(三);在1997年提出了对BLAST程序的改进算法,提高了搜索速度、敏感度和实用性。
可处理间隔(gap)的gapped BLAST算法
PSI-BLAST算法
对一个选中字串长度标准的延伸
利用prof
文档评论(0)