- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
12研究生第三章序列对比和数据库搜索资料
第三章 序列对比和数据库搜索 第三节BLAST程序简介 1、核酸数据库搜索 2、蛋白数据库搜索 3、已翻译蛋白的BLAST搜索 二、核酸序列的两两比较 四、输出结果的解释: ?第六节?? 低复杂度区域 ?第七节 重复元件 如果查询中包括一个重复元件的序列-比如说一个Alu重复-可能会出现许多错误的和令人费解的结果。虽然在蛋白质-蛋白质搜索中,这一般不会成为什么大问题,但是在包含DNA序列的任何比较中,都必须对此引起必要的重视。 基因组序列可能会包含大量分散的重复序列,特别是一些多基因族(例如Alus, LINEs和人的序列中的MERs),甚至mRNA序列中也可能含有重复序列,几乎都是信息的非翻译区。因此,重复元件在数据库序列中非常普遍,如果查询序列中也有这些重复,就会在对比中出现大量不正确的正分。虽然重复元件显示了大量不同成分,仍然有足够的相似性使对比具有一定的高显著性。虽然对比会跨越这些重复而不是侧面的单一序列,但是直接从数据库搜索的输出结果观察,这并不是显而易见的。 三、蛋白质与蛋白质数据库或蛋白质两两比较 1.蛋白质与蛋白质数据库比较: 选Protein BLAST中的Standard Protein-Protein BLAST[blastp]与蛋白质数据库比较,输入方法基本与核酸比较相同,存取号或序列内容必须是蛋白质库中的。 2.蛋白质的两两比较:在Pairwise BLAST中的BLAST 2 Sequences程序中进行,在程序中选blastp,序列输入格式同上。其输出搜索结果见图3.7,进一步点击Format button可看详细结果。 图 3.7 蛋白质的两两比较输出搜索结果 1.结果总览图:通用于蛋白质和核酸的结果表示。图中列了红、粉、绿、蓝、黑五种颜色,红色同源性最高,排在最上面,其它各种颜色同源性逐渐降低; 各种颜色同源性逐渐降低;每条图代表搜索蛋白质匹配的序列;如果出现阴影区,其对应的是二个或多个搜索数据库相似序列中的非相似区;鼠标指在哪条图上,图上面的框中会显示匹配蛋白质或核酸的名字;同一条图内的分离部分对应于无关的采样数。 2.显著性序列列表:如图3.10所示,最有显著性(同源性最高)的行排在最上面,其E值最低,排列行按E值增加排序;每行四部分描述内容:①数据序列标识符,②对该序列的简单描述,③在每个数据库中搜索得到的分数④E值;点击序列标识符可以连接到GenBank;点击分数可连接到对应的相互比较的序列行。 3.行列比较:因申请者提交的要求行列可有不同的输出形式,系统默认的是配对行列输出格式,即查询序列与数据库中匹配的序列垂直对应。针对蛋白质查询而言,相同的残基排在二序列之间,用“+”表示保守性残基;针对DNA而言,垂直线连接相同的碱基。空位部分代表查询序列与检索匹配序列不一致。由于过滤作用,在低复杂区氨基酸查询序列可以包含Xs(核苷酸包含Ns)。HPSs中可列出每个检索数据库中的多个行列。 相关的参数E值代表随机比较分值不低于实际比较分值的概率。对于严格的比较,必须E值低于一定阈值才能说明比较的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比较得分的可能。具体界定值在搜索设置中界定,系统默认为10,搜索的严谨度越高,E值越小。若要比较短序列,获得更多的信息,则可增加E值到1000或更高;或降低字符大小(W),经验之法是查询序列至少是W的二倍;或禁止过滤功能的使用;或改变矩阵以优化搜索序列。 ? 第四节?? PSI-BLAST程序简介 ? BLAST的当前版本是2.2.10,它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比较来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比较方法,如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。 PSI-BLAST程序 第五节?? 多序列比较 ? 顾名思义,多序列比较就是把两条以上可能有系统进化关系的序列进行比较的方法。目前对多序列比较的研究还在不断前进中,现有的大多数算法都基于渐进的比较的思想,在序列两两比较的基础上逐步优化多序列比较的结果。进行多序列比较后可以对比较结果进行进一步处理,例如构建序列模
文档评论(0)