第3章序列比对.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章序列比对

第三章 序列比对 1 序列比对的概念 序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。 2 序列比对的意义 生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。正是通过序列比对找出序列之间的相似性。序列比对找到的是相似性,可用这相似性去进行同源性分析。后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。 序列比对的一个用途就是用于搜索相似序列。当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。 在基因组测序中,序列比对更是有重要作用。基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。 序列比对还可以寻找序列中的特定位点。当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。经常会用比对确认氨基酸序列的保守区以了解该区的特定结构与功能。 在进行蛋白质结构预测、基因预测时,比对也是一种基本的研究手段之一。蛋白质结构预测中,大部分的成果都是来自序列比对,研究的模式主要是有若干已知结构及氨基酸顺序的序列,把待测的序列与已知结构的序列进行比对,通过相似性去预测待测序列局部或全部的结构。而在蛋白质的分类中,有的方法就是利用比对获得氨基酸序列的相似性,以此相似性为基础进行分类。在基因预测中常要在待测序列中搜寻起始密码子、结束密码子、多聚A帽子序列等特自位点以增加预测的命中率。 3 全局比对与局部比对 根据对比对后要排列的片断范围可将比对分为全局比对与局部比对。 3.1 全局比对 全局比对是全部待研究的全部序列的全部符号参加比较,最后也是全部序列的全部符号进行排列与计分,比对的结果中各序列长度相同。例如,按特定的计分规则(字母相同+1分、字母不同-1分、一个空格“-”对一个字母-2分),以下序列1与序列2的全局比对是: 序列1 T A C A G T T G G A T C C G T 序列2 T T T G G A 序列1 T A C A G T T G G A T C C G T 序列2 T - - - - T T G G A - - - - - 比对的得分是1-2-2-2-2+1+1+1+1+1-2-2-2-2-2=-12,比对的结果中16个位置有6个位置字母相同,9个位置字母对空格。 3.2 局部比对 局部比对是全部序列的全部符号参加比较,最后只将各序列中得分高的片断中的符号进行排列与计分,即只排列局部的序列片断。上述的例子中将序列1与序列进行全部比对时得分较低,以下把它们进行局部比对,看看有怎样的变化: 序列1 T A C A G T T G G A T C C G T 序列2 T T T G G A 序列1 T T G G A 序列2 T T G G A 比对的得分是1+1+1+1+1=5,比对的结果中5个位置有的字母全部相同,分别是序列1的第6至10个字母与序列2的第2至6个字母相匹配。可见,用全局比对去寻找只有局部相似性的序列间的联系时很可能得不到有用的信息,而用局部比对则能把相似片断找出来。不同来源序列间在生物学上有意义的相似往往只出现在序列的局部区域,因此局部比对在实际中更常用。 4 计分方法 计分规则是比对的重要条件,计分方法的生物学意义常常就决定了比对所反映的生物学特征。在使用差异较大的不同计分方法时将会产生不同的比对结果。根据所代表的生物学意义可以粗略地将计分方法分为三类:匹配计分、

文档评论(0)

sy78219 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档