生物信息学 8序列比对教材编辑.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;;;;;;;;第五章 序列比对;实验二 核酸及蛋白质序列的比对 一、??? 实验内容 利用检索出以下几种植物的蛋白质和核酸序列进行序列比对并进行分子进化树分析。 sorghum propinquum(高粱) zea mays(玉米) oat(燕麦) potato(马铃薯) arabidopsis thaliana(拟南芥) cyrtosia septentrionalis(血红肉果兰) 二、??? 作业 1、 绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。 2、 根据你所学生物分类的知识,试解释该分子进化树的合理性。 3、 找出一条可能最长的保守序列(多条蛋白共同的氨基酸序列)。 ;; 数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。 所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断” 必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。 ; 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。 总之,不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。 ;而同源又有两种不同的情况即垂直方向的(orthology)与水平方向的(paralogy)。;鉴定直系同源的实际操作标准(practical criteria)为: 如基因组Ⅰ中的A基因与基因组Ⅱ中的A‘基因被认为是直系同源,则要求: (1)A‘的产物比任何在基因组Ⅱ中所发现的其它基因产物都更相似于A产物; (2)A‘与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高; (3)A编码的蛋白与A‘编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif); 旁系同源(paralogy)基因是指同一基因组(??同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。;局部相似性和整体相似性 ; 序列比对的最终实现,必须依赖于某个数学模型。不同的模型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。此外,模型参数的不同,也可能导致比对结果的不同。 ; 序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。 局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。 ; 区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。 BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。 ;例:找出phyA蛋白质的相似序列;;;;;;第二节 相关算法; 有2种经典方法可以计算两条序列间的最适联配。Needleman-Wunsch算法是一种整体联配(global alignment)算法,最佳联配(两条蛋白质序列具有最多匹配残基)中包括了全部的最短匹配序列。 Smith-Wateman算法是在Needleman-Wunsch算法基础上发展而来的,它是一种局部联配(Local alignment)算法。 这二种算法均可以用于核酸和蛋白质序列。在给定空位罚值和替换矩阵情况下,它们总是能给出具有最高联配值的联配。但是,这个联配并不需要达到生物学意义上的显著水平。;  许多程序可通过匿名ftp服务用于两条序列的联配计算。GCG软件包中,BESFIT和GAP程序便是用于两对序列的联配。在一些网站可以进行两条序列的联配分析,例如:ALI

文档评论(0)

youngyu0318 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档