局部对比搜索工具.pptVIP

下载本文档

75
0
约3.36千字
约 86页
2018-03-31 发布于江西
举报
版权申诉

局部对比搜索工具.ppt

1、本文档共86页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

局部对比搜索工具

第四讲局部比对搜索工具 ;纲要;双序列比对要点总结;BLAST;BLAST的应用;BLAST （Basic Local Alignment Search Tool）;一次BLAST搜索的四个步骤;Step 1 输入你的查询序列 BLAST网页搜索接受的格式：FASTA 格式、 NCBI索引号（Accession numbers）、 GIs (GenBank Identifier)；也可以是单纯的序列或序列的一部分（复制、粘贴），也可以从本地文件上传。;Example: 一个蛋白质序列：MJ0577;FASTA序列格式;Step 2: 选择BLAST程序;Step 2: 选择BLAST程序;选择BLAST程序;1条DNA序列可以编码6个蛋白质序列;Step 3: 选择数据库（蛋白质数据库）;Step 3: 选择数据库（核酸数据库）;Step 3: 选择数据库（限制）;protease NOT hiv1[organism] 将结果限制在所有的蛋白酶，但排除HIV 1的。 1000:2000[slen] 将结果序列的长度限制在1000到2000 字符。 Mus musculus[organism] AND biomol_mrna[properties] 将结果限制在数据库中 mouse mRNA. 10000:100000[mlwt] 将结果中蛋白质序列的分子量限制在10 kD 到 100 kD.;STEP 4a 选择参数;STEP 4b 选择参数;STEP 4c 选择参数;以一种富含脯氨酸的蛋白质（NP_036522）作为查询的结果。注意到该蛋白质的大部分在数据库中没有匹配，因为该蛋白的中间区域被过滤掉了。;关闭过滤，得到的结果在全序列范围内的较好匹配。;;结果的开始部分;不同颜色表示亲缘关系的远近（根据比对得分），每条线的长度对应于该序列与查询序列比对上的区域大小。位于顶端的匹配有最大的得分和最小的E值;两两序列比对情况;页面最下方是本次BLAST搜索的总结;BLAST搜索结果的格式选择;BLAST: background on sequence alignment;BLAST算法可找到一个查询序列和一个数据库序列之间的匹配关系，然后向两个方向延伸。搜索结果既包括数据库中高度相关的序列，也包括边缘性相关区域，并用一个打分图描述查询序列与每个数据库匹配之间的相关程度。分为三个阶段：列表、扫描、延伸;Phase 1: 列表 (w=3) 编译一个由查询序列生成的长度固定为w的“字段”列表。针对比对字段打分建立阈值T，大于T的字段被定义为匹配。;比对得分由一个打分矩阵确定，如Blosum62;Phase 2:扫描在数据库中扫描与编译列表匹配的记录。最初blast运行只寻找一个匹配，目前版本需要寻找两个相隔一定距离A的相互分离的字段（如两个没有重叠区域的字段），然后生成这两个匹配的一个无空位的延伸。提高了搜索速度，匹配量增加，但只需要进行原来1/7的延伸操作。参数A的默认值为40。;当找到一个匹配（hit），像两个方向延伸匹配序列；追踪分值大小（使用打分矩阵）；当分值下降时停止。;在最初的BLAST版本（1990）中，延伸向一个匹配的两个方向进行； 1997年的BLAST改进后，需要两个独立的匹配（two independent hits ），匹配必须发生在相近部分，有了这个改进，只需原来七分之一的延伸，极大提高了搜索速度。;slower;better;better;BLAST结果的解释：期望值（expect value）;x;一个蛋白质BLAST搜索得分的分布呈极值分布。;期望值（expect value） E，是在一次数据库搜索中，随机条件下期望发生的得分等于或大于S的不同比对的数目； E值与概率p相关；描述E值的公式： E = Kmn e-lS;该公式描述随机条件下得分为某个特定值S（或更好）的HSP的期望数，该公式来源于对极值分布的描述。 S ：比对得分 E ：期望值，期望得到的得分不小于S的高分片段对数量 m, n ：两条序列的长度 K,λ ：Karlin-Altschul statistics（统计量）;公式 E = Kmn e-lS 的一些特点 ;从原始分数（raw scores ）到比特分数（bit scores ）;为什么要使用比特分数（bit scores ）？;p值：得分为所要求的分值比对或更好的比对随即发生的概率；将观察到的比对得分S，与同样长度和组成的随机序列做为查询序列进行的数据库搜索进行比较得到的HSP得分的期望分布联合计算得到。显著性最高的是接近0的p值。;非常小的E值与p值近似； E值在1到10之间，比对应的p值更易于理解和解释（