序列比对4技术总结.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BLAST数据库搜索策略 BLAST仅通过部分而不是全部序列计算最适联配值 ——赢得搜索速度 * /108 Blast Blast主要是基于片段对的概念。 片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空格的完全匹配。 Blast首先找出探测序列和目标序列间所有匹配程度(以得分计算)超过一定阈值的序列片段对。 根据给定的阈值对片段对进行延伸,得到一定长度的相似性片段,最后给出高分值片段对(high-scoring pairs,HSPs). 改进后的Blast允许空格的插入。 * /108 * /108 比对统计学意义的评价—— E值(E-Value) BLAST程序中使用了E值而非P值,这主要是从直观和便于理解的角度考虑。比如E值等于5和10,总比P值等于0.993和0.99995更直观。但是当E0.01时,P值与E值接近相同 参数K和λ可分别被简单地视为搜索步长(search spacesize)和计分系统(scoring system)的特征数 BLAST软件包实际上是综合在一起的一组程序,不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将检测序列翻译成蛋白质或将数据库翻译成蛋白质后再进行搜索,以提高搜索结果的灵敏度。 * /108 * /108 BLAST程序检测序列和数据库类型 对一般用户来说,目前常用的办法是通过NCBI、EBI等国际著名生物信息中心的BLAST服务器进行搜索。需要说明的是,各生物信息中心BLAST用户界面有所不同,所提供的数据库也可能不完全相同,使用前最好先进行适当的选择。 * /108 * /108 * /108 选择双序列比选项 Blastn为核酸序列的比对程序,blastp为蛋白质序列的比对程序。 * /108 选择比对算法(程序)与参数 * /108 算法选项 * /108 核酸序列比对 输入序列1 输入序列2 NM_006744 NM_011255.2 * /108 * /108 BLAST 应用实例 多结构域蛋白 (H1N1) 脂质运载蛋白 * /108 多结构域蛋白 (H1N1) 的BLAST检索 H1N1聚合酶序列 * /108 * /108 BLAST结果综述 BLAST结果表述 * /108 BLAST结果逐条显示 * /108 BLAST结果逐条显示 * /108 * /108 BLAST:改变打分矩阵的作用 脂质运载蛋白 * /108 使用Blosum62矩阵搜索 * /108 使用PAM30矩阵搜索 * * /108 图5-1 序列比对的点阵图方式 显然,如果两条序列完全相同,则在点矩阵主对角线的位置都有标记;如果两条序列存在相同的子串,则对于每一个相同的子串对,有一条与对角线平行的由标记点所组成的斜线,如图5.2中的斜线代表相同的子串“ATCC;而对于两条互为反向的序列,则在反对角线方向上有标记点组成的斜线,如图5.3所示。 * /108 * /108 图5-2 相同子串点阵图 * /108 * /108 除非已经知道待比较的序列非常相似,一般先用点矩阵方法比较,因为这种方法可以通过观察阵列的对角线迅速发现可能的序列比对。 两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。当对比较长的序列进行比较时,这样的点阵图很快会变得非常复杂和模糊。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。 * /108 利用点阵图完成下列两条序列的比对 PQWIKMSTGG QWISTGG * /108 (2)蛋白质打分矩阵 (i)等价矩阵 (ii) 遗传密码矩阵(genetic code matrix,GCM ) (iii)疏水性矩阵 (hydrophobic matrix) (iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution Matrix,BLOSUM) * /108 (1) 等价矩阵 * /108 其中,Rij代表得分矩阵元素,i、j分别代表字母表第i个和第j个字符。 (2) 遗传密码矩阵GCM GCM矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。 如果变化一个碱基,就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1; 如果需要两个碱基的改变,则替换代价为2;以此类推(见表5-5)。 * /108 GCM矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用。 *

文档评论(0)

yy558933 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档