【生物信息学第二版】序列比对课件.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【生物信息学第二版】序列比对课件

UCSC基因组浏览器中所采用的多序列比对在多方面作了改进 首先,它采用了参照序列(reference sequence),使用BLASTZ将每一个序列与参照序列进行局部配对比对,参照序列中的一个碱基比对另一个序列中的至多一个碱基。 其次,依据计分矩阵和两序列的种系关系,对配对比对的结果进行所谓的“串连”(chaining)和“连网”(netting)。 接着,UCSC基因组浏览器使用MULTIZ对多个“串连”的配对比对进行渐进多序列比对。 小 结 序列比对是基因和DNA序列分析的基础,所依据的两个核心概念是同源和相似,同源序列一般是相似的,相似序列不一定是同源的。多序列比对是双序列比对的自然推广,采用更多物种的序列进行多序列比对常常能更准确和更可靠地揭示序列的同源性和保守域。 * 三、双序列局部比对 处理子序列与完整序列(或短序列与长序列)比对的一般过程是:设短序列a和长序列b,它们的长度分别为La和Lb,比对是在b序列中寻找La长度的a序列的过程。 四、多序列全局比对 多序列比对主要涉及四个要素: ①选择一组能进行比对的序列(要求是同源序列); ②选择一个实现比对与计分的算法与软件; ③确定软件的参数; ④合理地解释比对的结果; 与双序列比对一样,多序列比对也有全局比对和局部比对。 (一)动态规划法进行多序列比对 (A)计算三个序列间的一个比对单元(i,j,k)依赖于其7个前导项; (B)计算u=ATGTTAT,v=ATCGTAC,w=ATGC三序列比对的三维得分矩阵δ。 计算三序列比对 (二)渐进多序列比对 三个序列的配对比对未必能组合成一个多序列比对 对于接近或超过100个序列的多序列比对,渐进多序列比对具有较高效率。最流行的渐进多序列比对软件是Clustal家族。 ClustalW有以下特点: 首先,在比对中对每个序列赋予一个特殊的权值以降低高度近似序列的影响和提高相距遥远的序列的影响(如下图)。 ClustalW中对序列赋权的方法 其次,根据序列间进化距离的离异度(divergence)在比对的不同阶段使用不同的氨基酸替换矩阵; 第三,采用了与特定氨基酸相关的空缺(gap)罚分函数,对亲水性氨基酸区域中的空缺予以较低的罚分; 第四,对在早期配对比对中产生空缺的位置进行较少的罚分,对引入空缺和扩展空缺进行不同的罚分。 迭代法 基于一致性的方法 遗传算法 其他多序列全局比对方法 五、多序列局部比对 全局比对,其共同特征是序列中所有对应字符均假定可以匹配,所有字符具有同等的重要性,空格的插入是为了使整个序列得到比对,包括使两端对齐。 局部比对不假定整个序列可以匹配,重在考虑序列中能够高度匹配的一个区段,可赋予该区段更大的计分权值,空格的插入是为了使高度匹配的区段得到更好的比对。 对2个序列进行全局和局部比对可得到完全不同的结果 基于隐马尔可夫模型的多序列比对方法 隐马尔可夫模型和3个蛋白质序列PHSFTYVMT、PGSFTYW、RFTGFW的最小公共超图 六、比对的统计显著性 确定比对得分score是否偶然: 1.将β球蛋白或肌球蛋白与大量非同源的蛋白质做比对,然后将score与这些比对的得分进行比较。 2.把一个序列与一组随机产生的序列进行比对,然后同样将score与这些比对的得分进行比较。 3.随机将两个序列中的一个打乱重组,比如说重组100次,并与另一个序列比对,同样得到一组比对的得分。 第三节 数据库搜索 Section 3 Database Search 一、经典BLAST 基本的BLAST算法本身很简单,它的要点是片段对(segment pair)的概念,它是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空格的完全匹配。 程序名 查询序列 数据库类型 方法 blastp 蛋白质 蛋白质 用蛋白质查询序列搜索蛋白质序列数据库 blastn 核酸 核酸 用核酸查询序列搜索核酸序列数据库 blastx 核酸 蛋白质 将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库 tblastn 蛋白质 核酸 用蛋白质查询序列搜索核酸序列数据库,核酸序列按6条链翻译成蛋白质 tblastx 核酸 核酸 将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列的数据库 BLAST的查询序列和数据库的类型 BLAST算法图示 二、衍生BLAST (一)PSI-BLAST 主要用于搜索与感兴趣的蛋白质关系较远的蛋白质。 (二)PHI-BLAST 用来帮助判断这个蛋白质属于哪个家族。 (三)BLASTZ BLASTZ是在比对人和鼠的基因组中发展起来的,它适合于比对非常长的序列。 三、BLAT BLAT(The BLAST-Like Alignment Tool)与BL

文档评论(0)

静待花开 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档