第33章生物信息.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE2

第三篇现代统计方法

PAGE20

第33章生物信息学资料的统计分析方法

第33章生物信息学资料的统计方法

生物信息学(Bioinformatics)始于20世纪80年代末,是随着基因组测序数据迅猛增加而逐渐兴起的一门新兴学科。如何通过分析、处理,揭示海量生物学数据的内涵,得到生物发生、发展的信息,是生物学家和数学家面临的严峻挑战。生物信息学就是迎接这种挑战而发展起来的一个交叉学科。

生物信息学直接面对的研究对象是海量数据库,一般可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释,二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等。蛋白质序列数据库有SWISS-PROT、PIR等。蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因为针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

生物信息学发展的核心问题之一是研制出创新的分析工具,从而针对以上数据库,挖掘出更多的生物学含义。统计学在生物信息学中发挥着重要的作用,例如快速、严格的多序列比较方法、检验方法,针对大规模、多层次复杂数据的统计分析方法等,均包含大量的统计学方法。本章我们就几个主要方面,介绍统计学方法在生物信息中的应用。

33.1序列比较方法

在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找到具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。对于氨基酸序列来说,有可能找到已知三维结构的同源蛋白质而推测可能的空间结构。因此,数据库搜索与数据库查询一样,是生物信息学研究的一个重要工具。

蛋白质相似性搜索常采用启发性算法,按照某种优化准则快速地计算“几乎”正确的答案。在数据库搜索时,BLAST、FASTA和基于Smith-Waterman的动态规划算法是三种常用的算法。

33.1.1数据库搜索工具BLAST

BLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”(Altschuletal,1990;1997)。国际著名生物信息中心都提供基于WEB的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。

33.1.2序列相似性

序列的相似性是一种很直接的数量关系,可以有许多度量方法,常常用距离和相似度来定义。距离(Distance)其定义来自于对生物在进化过程中发生变异的可能性分配一个加权值,给定两条序列其中一条序列经过一系列的变异可以变换为另一条序列,那么这两条序列之间的距离为这些变异的加权值之和的最小值。相似度(Similarity)是对给定的两条序列,将对应位置的相似之处赋予一定的分值(或权值),那么,这两个序列的相似度为这些权值之和的最大值。

给定一个序列,利用数据库作相似性检索的结果,可有如下几种情况:(1)该序列与库中的某个序列完全匹配(即相同);(2)该序列与某些令人感兴趣的序列(如癌基因或生长因子、细胞因子等)明显相似;(3)该序列与某个具有一般性质的序列(如细胞色素、核糖核酸酶)明显相似;(4)该序列与某个序列微弱相似,如两个序列的残基相同率在15%~25%之间。Doolittle把这种介于明显相似和不相似之间的情形称为过渡区(twilightzone)。这种情况比较常见;(5)该序列与库中的所有序列无任何相似。

在通过序列比较做出“发现了新蛋白质”这一结论之前,应了解测序过程是否有误和检索的数据库是否为最新的。如果确实是新序列,并且不与任何其它序列相似,那它就是一个独特顺序,它可作为探针用于从基因文库调出含有此段DNA顺序的基因。随着核酸和蛋白质序列库的迅速扩大,这种独特顺序已变得不多见,对于任何一段足够长的序列,常可能从序列数据库中检出具有一定程度的类似序列。在多数情况下,对数据库检索所得到的积分较高的候选序列是否真正与被检序列相关,需进一步将被检序列与候选序列作全面的成对(双重)配准比较和统计学检验。

虽然序列配准的残基相同率可以反映序列间相似性的大小,但其影响因素较多,如被比较序列的长度、引入的空位数等等。因此它不总是与序列间的相似性大小成正比例。序列比较的结果一般都要经过统计学检验,才能判断是否具有统计学意义。

33.1.3序列相似的统计检验

M

文档评论(0)

FLORA + 关注
实名认证
内容提供者

GR

1亿VIP精品文档

相关文档