实验一利用BLAST的数据库比对分析..docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验一利用BLAST的数据库比对分析.

实验三 利用BLAST的数据库比对分析2012454116郑俊昌一、实验目的1、学习BLAST序列相似性网络核酸蛋白数据库比对方法2、进行网络核酸蛋白数据库基因相似性分析二、实验内容1、BLAST工具介绍BLAST? (Basic Local Alignment Search Tool)工具是用查询的DNA或蛋白质序列与所以可能的序列数据库进行相似性搜索的多个程序。BLAST程序运行速度快,打分合理,容易辨认出真正的匹配与随机背景的不同。BLAST不仅可以进行局部亦可以进行全局搜索,易于发现一些分隔的相似区段。BLAST的功能:BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的比对上的序列。BLAST可处理任何数量的序列, 包括蛋白序列和核算序列; 也可选择多个数据库但数据库必须是同一类型的, 即要么都是蛋白数据库要么都是核酸数据库。下面介绍5个BLAST分析的程序:(1) BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。(2) BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白即六框翻译),再对每一条作一对一的蛋白序列比对。(3) BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。(4) TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。(5) TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白质(六框翻译),这样每次比对会产生36种比对阵列。2、连接NCBI进行BLAST相似性分析BLAST可以通过登录NCBI的BLAST服务器进行,也可以下载BLAST程序及相关数据库后进行本地BLAST分析。通常在网络连接正常的情况下,登录NCBI进行BLAST分析是首选。1)登陆blast主页:/BLAST/2)根据数据类型,选择合适的程序3)填写表单信息序列的输入、比对搜索区域的选择、数据库的选择限制调节、打分矩阵及其他参数的设置各参数的含义:Word size选项:BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”, 即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如 A 与 A),得某一正值;如果碱基对不很匹配(W与A或 T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的 合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP,直至序列结束或联配已变为不显著。替换矩阵在扫描(scanning)和扩展过程被应用。最后在BLAST报告中被列出的序列都是所有得分最高的序列。以上述及的初始字长便是由Word size值设定。BLAST只对字长为W的“字”进行扩展联配。BLAST 的字长缺省值为 11,即 BLASTN 将扫描数据库,直到发现那些与未知序列的 11个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。1 P6 F7 L; L( Y: g D$ B8 F q“Filter”(过滤器)选项:BLAST 2.0版本的新功能,过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,例如,多A 碱基的尾部和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。“Matrix”(矩阵)选项:联配的显著性是由返回的比对分值决定的,该分值反映的是所得到的联配随机产生的概率有多大。矩阵被用于鉴别数据库中的序列,同时又用来预测匹配的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种类型矩阵(PAM和BLOSUM,前面都有介绍)。要准确地选择矩阵,必须了解矩阵和矩阵的具体计分方式。值得注意的是,直接比较使用不同替换矩阵而获得的联配得分是没有意义的。“EXPECT”选项:您可以为搜索设定一个期望值阀值(EXPEC

文档评论(0)

sfkl + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档