生物信息学基本概念集锦.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学基本概念集锦.doc

生物信息学基本概念集锦 相似性和同源性 如上所述,数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要H的Z—。 所谓同源序列,简单地说,是指从某一共同祖先经趋界进化而形成的不同序列。必须指出,相似性(similarity) 和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中用来描述检测序列和目标序列之 间相同DNA碱基或氨基酸残基顺序所占比例的简低。当相似程度爲于50%时,比较容易推测检测用列和 目标序列可能是同源序列;而当相似性程度低丁? 20%时,就难以确定或者根本无法确定其是否具有同源性。 总之,不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确 切的,应该避免使用。 相似性概念的含义比较广泛,除了上面提到的两个序列之间相同碱基或残基所占比例外,在蛋口质序 列比对中,冇时也指两个残基是否具冇相似的特性,如侧链基团的大小、电荷性、亲疏水性等。在序列比 对屮经常需要使用的氨革酸残基相似性分数矩阵,也使用了相似性这-?概念。此外,相似性概念还常常用 于蛋白质空间结构和折叠方式的比较。 局部相似性和整体相似性 序列比对的基本思想,是找出检测序列和目标序列的和似性。比对过程中需要在检测序列或目标序列 中引入空位,以表示插入或删除(图3.1)。序列比对的授终实现,必须依赖于某个数学模型。不同的模 型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模 型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。 此外,模型参数的不同,也可能导致比对结果的不同。 Query: 179 ENGFRYIFFRIY QTTTER PFIQKURPVAADGQLHTL3DL 218 F+ IP RIY T +R F ++ A G T Sbjct: 181 LESFKNIPLRIYTDDVRLHVHPETDFTDQRGRTKEEFGRFNGRIIDTCAQSGSFGTRIGA 240 图3.1序列比对,图屮“■”表示插入和删除,用字符表示相同的残基,“+”表示相似残基。 序列比对的数学模型大体町以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对; 第二类考虑序列部分区域的相似性,即局部比对。局部相似性比对的生物学基础是蛋白质功能位点往往是 由较短的序列片段组成的,这些部位的序列貝有相当大的保守性,尽管在序列的其它部位可能有插入、删 除或突变。此时,局部相似性比对往往比整体比对具有更高的灵斂度,其结果更具生物学意义。 区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指出,在实 际应川中,川幣体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比 对得到的结果也不能说明这两个序列的三维结构或折脊方式一定相同。BLAST和Fast A等常用的数据库 搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序 则需要超级计算机或专用计算机才能实现。 数据席查询,是指对序列、结构以及各种二次数据库屮的注释信息进行关键词匹配查找。例如,对蛋白质 序列数据库SwissProt输入关键词insulin(胰岛索),即町找出该数据库所有胰皿索或与胰必索冇关的序列 条目(Entry)。数据库查询冇时也称数据库检索,它和互联网上通过搜索引擎(Search engine)查找需要的 信息是一个概念。 数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋口质 序列数据库屮与检测序列具有一定程度相似性的序列。例如,给定一个胰岛索序列,通过数据库搜索,可 以在蛋H质序列数据库SwissProt中找出与该检测序列(query sequence)*有一定相似性的序列。因此, 在生物信息学中,数据库搜索是专门针对核酸和蛋口质序列数据库而言,其搜索的对象,不是数据库的注 释信息,而是序列信息。 多序列比对 双序列比对是序列分析的基础。然而,对于构成基因家族的成纽的序列來说,我们要建立多个序列Z 间的关系,这样才能揭示整个基因家族的特征。山于可以提高序列比对的信噪比,多序列比对在阐明一组 和关序列的重要生物学模式方面起着相当重要的作用。本章屮,我们将介绍一系列多序列比对的方法,从 完全手动的方式到广泛应用的计算机程序,即所谓自动比对的方法。 多序列比对冇时用來区分一组序列Z间的差异,但其主要用于描述一组序列Z间的相似性关系,以便 対一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或 生物学模型之上。因此,正如我们不能对双序列比对的结果得出“正确或错误”的简

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档