NCBI提供了基于Web的BLAST服务,用户.docVIP

下载本文档

100
0
约 9页
2017-09-16 发布于重庆
举报
版权申诉

NCBI提供了基于Web的BLAST服务,用户.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

BLAST是现在应用最广泛的序列相似性搜索工具，相比FASTA有更多改进，速度更快，并建立在严格的统计学基础之上。NCBI提供了基于Web的BLAST服务，用户可以把序列填入网页上的表单里，选择相应的参数后提交到数据服务器上进行搜索，从电子邮件中获得序列搜索的结果。BLAST包含五个程序和若干个相应的数据库，分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。表1. BLAST程序：程序数据库查询简述 blastp blastn blastx tblastn tblastx 蛋白质核酸蛋白质核苷酸(翻译) 核酸(翻译) 蛋白质核苷酸核酸(翻译) 蛋白质核酸(翻译) 可能找到具有远源进化关系的匹配序列适合寻找分值较高的匹配，不适合远源关系适合新DNA序列和EST序列的分析适合寻找数据库中尚未标注的编码区适合分析EST序列　表2. BLAST的蛋白质数据库：数据库简述 nr month swissprot pdb yeast E.coli Kabat alu 汇集了SWISS-PROT,PIR,PRF以及从GenBank序列编码区中得到的蛋白质和PDB中拥有原子坐标的蛋白质，并去除了冗余的序列 nr中过去30天内的最新序列 SWISS-PROT数据库 PDB结构数据库中的蛋白质序列酵母基因组中编码的全部蛋白质大肠杆菌基因组中编码的全部蛋白质 Kabat的免疫学相关蛋白质序列由REPBASE中的Alu重复序列翻译而来，用来遮蔽查询序列中的重复片段表3. BLAST的核酸数据库：数据库简述 nr month dbest dbsts htgs yeast E.coli pdb kabat vector mito alu gss 非冗余的GenBank＋EMBL＋DDBJ＋PDB序列，除了EST、STS、 GSS和0,1,2阶段的HTGS序列 nr中过去30天的最新序列非冗余的Genbank＋EMBL＋DDBJ＋PDB的EST部分非冗余的Genbank＋EMBL＋DDBJ＋PDB的STS部分 0,1,2阶段的高产量基因组序列(3阶段完成的HTG序列在nr库里) 酵母的全基因组序列大肠杆菌的全基因组序列由三维结构库来的核酸序列 Kabat的免疫学相关序列库 Genbank的载体子集线粒体核酸序列 REPBASE中Alu重复序列翻译而来，用来遮蔽查询序列中的重复片段基因组勘测序列(Genome Survey Sequence) BLAST对序列格式的要求是常见的FASTA格式。 FASTA格式：第一行是描述行，第一个字符必须是“”字符；随后的行是序列本身，一般每行序列不要超过80个字符，回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表；小写字符会全部转换成大写；单个“-”号代表不明长度的空位；在氨基酸序列里允许出现“U”和“*”号；任何数字都应该被去掉或换成字母(如，不明核酸用“N”，不明氨基酸用“X”)。对于核酸序列，除了A、C、G、T、U分别代表各种核酸之外，R代表G或A(嘌呤)；Y代表T或C(嘧啶)；K代表G或T(带酮基)；M代表A或C(带氨基)；S代表G或C(强)；W代表A或T(弱)；B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一种。对于氨基酸序列，除了20种常见氨基酸的标准单字符标识之外，B代表Asp或Asn；U代表硒代半胱氨酸；Z代表Glu或Gln；X代表任意氨基酸；“*”代表翻译结束标志。 BLAST的当前版本是2.0，它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile，然后用新的profile再次搜索数据库，如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库，将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法，能寻找蛋白质序列中的隐含模式，有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白，甚至可以与一些结构比对方法，如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到，还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。分子生物信息数据库概述分子生物信息数据库是种类繁多。归纳起来，大体可以分为4个大类，即基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子(主要