- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工程科技]序列比对和数据库
序列比对和数据库搜索
Gregory D.Schuler
NationalCenterfor Biotechnology Information
National Library of Medicine.National Institutes of Health
Bethesda. Maryland
引言
在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础
进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的DNA,我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序
Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins
Edited by A.D.Baxevanis and B.F.F.Ouellette
ISBN 0-471-19196-5.pages 145-171. Copyright? 1998 Wiley-Liss. Inc.
列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。如图7.1,在序列比对中,发现了5个空位。
| S-S*|
Mouse IVGGYNCEENSVPYQVSLNSGYHFCGGSLINEQWVVSAGHCYKSRIQV
Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI
*
Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA
Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ
| S-S|
Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE
Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE
◇ *|S-S|
Mouse GGKDSCQGDSGGPVVCNGQLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN
Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVS
原创力文档


文档评论(0)