网站大量收购独家精品文档,联系QQ:2885784924
  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BLAST速学

* * * * * * * * * * * * * * * * * * * * WPF 2011.12.8 BLAST简介 BLAST 的算法 BLAST 搜索策略 BLAST是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。 BLAST程序能迅速与公开数据库进行相似性序列比较,采用一种局部的算法获得两个序列中具有相似性的序列,其结果中的得分是对一种对相似性的统计说明。 BLAST (Basic Local Alignment Search Tool) BLAST的应用 确定特定的序列有哪些已知的同源序列 确定哪些蛋白质和基因在特定的物种中出现 确定一个DNA或蛋白质序列身份 发现新基因 确定一个特定基因或者蛋白质有哪些已经被发现了的变种 研究可能存在多种剪辑方式的表达序列标签 寻找对于一个蛋白质功能或结构起关键作用的氨基酸残基 BLAST中常用的程序介绍 程序 输入 数据库 1 blastn DNA DNA 1 blastp protein protein 6 blastx DNA protein 6 tblastn protein DNA 36 tblastx DNA DNA BLAST算法 可找到一个查询序列和一个数据库序列之间的匹配关系,然后向两个方向延伸。搜索结果既包括数据库中高度相关的序列,也包括边缘性相关区域,并用一个打分图描述查询序列与每个数据库匹配之间的相关程度。 分为三个阶段:列表、扫描、延伸 编译高于阈值T的字段 (w=3) Example: for a query :…FSGTWYA…(query word is in yellow) A list of words (w=3) is: FSG SGT GTW TWY WAY(由查询序列生成的字段) YSG TGT ATW SWY WFA FTG SVT GSW TWF WYS Phase 1: 列表 Phase 1: 列表 (w=3) 编译一个由查询序列生成的长度固定为w的“字段”列表。针对比对字段打分建立阈值T,大于T的字段被定义为匹配。 GTW 6,5,11 22 neighborhood GNW 6,0,11 17 word hits GAW 6,0,11 16 threshold ATW 0,5,11 16 GTF 6,5,1 12 GTM 6,5,-1 10 neighborhood DAW -1,0,11 10 word hits below threshold (根据blosum62打分) (T=11) 比对得分由一个打分矩阵确定,如Blosum62 Phase 2:扫描 在数据库中扫描与编译列表匹配的记录。 最初blast运行只寻找一个匹配,目前版本需要寻找两个相隔一定距离A的相互分离的字段(如两个没有重叠区域的字段),然后生成这两个匹配的一个无空位的延伸。 提高了搜索速度,匹配量增加,但只需要进行原来1/7的延伸操作。 参数A的默认值为40。 当找到一个匹配(hit),像两个方向延伸匹配序列; 追踪分值大小(使用打分矩阵); 当分值下降时停止。 KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit) Hit! extend extend Phase 3: 延伸 通过延伸匹配得到高分片段对(HSPs) slower faster Search speed lower T higher T Blast中改变阈值T的效果 better worse slower faster Sensitivity Search speed lower T higher T Blast中改变阈值T的效果 better worse slower faster Sensitivity Search speed small w large w lower T higher T 对于蛋白质,默认的字段为3,结果比字段2更为准确 Blast中改变阈值T的效果 期望值(expect value) E,是在一次数据库搜索中,随机条件下期望发生的得分等于或大于S的不同比对的数目; E值与概率p相关; 描述E值的公式: E = Kmn e-lS BLAST结果的解释:期望值(expect value) 如何评估结果的显著性 如何处理太多的结果 如何处理太少的结果 利用一个多结构域蛋白(HIV-1 pol)进行BLAST搜索 利

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档