第三序列对比与数据库搜索(下)素材.pptVIP

  • 3
  • 0
  • 约6.72千字
  • 约 43页
  • 2016-08-20 发布于湖北
  • 举报
第三章 序列对比和数据库搜索 (下) 4 BLAST程序简介 BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快。 它建立在严格的统计学基础之上。 /blast/ BlAST 工具主页面 4.1 BLAST搜索主界面 BLAST 2.2.12, 具体功能包括: (1)核酸数据库搜索:分为标准的核酸与核酸数据库搜索,MEGABLAST提供大量长序列的比较,完全匹配的短序列的搜索。 (2)蛋白数据库搜索:分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系是否存在,进一步获取这个蛋白家族中的功能信息。而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索。 (3)已翻译蛋白的BLAST搜索包括:blastx、tblastn,Ctblastx。 (4)保守区域的搜索:主要使用RPS-BLAST。 (5)配对序列的两两比较:用于核酸和蛋白的两两比较分析。 (6)针对特定数据库的搜索:比如人类基因组、微生物基因组等。 (7)检索已提交的申请结果:主要用于申请比较的序列较长,等待时间长时,只需记住申请的编号,在ID框中输入即可,但结果只保留24h。 4.2 BLAST 程序及其数据库名称和意义 BLAST 蛋白质数据库 BLAST 的核酸数据库 4.3 BLAST搜索格式 BLAST搜索框中允许3种输入格式: FASTA 格式 单纯序列输入格式 标识符格式 FASTA格式 FASTA格式第1行是描述行,第1个字符必须是字符;随后的行是序列本身,一般每行序列不要超过80个字符,各行之间不允许有空行,回车符不会影响程序对序列连续性。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写,序列可由基因库中调出,亦可输入。如: gi|129295|splP01013|OVAX-CHICK GENE X PROTEIN (OVALBUMIN-RE-LATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTR- EMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEIKTINFEIKLTEJTNPNTMEIKRRVIKVYLPQMIKIEEIKYNVLMALGMTDLFIPSANLIBSQAVEHfGAFMELSEDGIEMAGSTGVIEDIHIK 核酸表示字符: BLASTP、TBLASTN接受的氨基酸输入代码 A alanine (丙氨酸) P proline(脯氨酸) B aspartate or asparagine (天门冬氨酸) Q glutamine (谷氨酰胺) C cystine(胱氨酸) R arginine(精氨酸) D aspartate(天冬氨酸) S serine(丝氨酸) E glutamate(谷氨酸盐) T threonine(苏氨酸) F phenylalanine(苯丙氨酸) U selenocysteine(晒代半胺氨酸) G glycine(甘氨酸) V valine(缬氨酸) H histidine(组氨酸)        W tryptophan(色氨酸〉 I isoleucine(异亮氨酸)       Y tyrosine(酪氨酸) K lysine (赖氨酸)         Z glutamate or glutamine L leucine (亮氨酸)        X any(任何一种氨基酸) M methionine(蛋氨酸)      *translation stop(翻译终止符) N asparagine(天冬酰胺)     -gap of indeterminate length 2.单纯序列数据输入格式 该格式无FASTA描述定义行,亦可是GenBank/GMPept中的单纯文本格式。如: QKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKEELPFASGDLS

文档评论(0)

1亿VIP精品文档

相关文档