课内生物信息学第十一章利用蛋白质序列的预测方法.docVIP

下载本文档

18
0
约 25页
2016-11-07 发布于江苏
举报

课内生物信息学第十一章利用蛋白质序列的预测方法.doc

11 利用蛋白质序列的预测方法 Andreas D. Baxevanis Genome Technology Branch National Human Genome Research Institute National Institutes of Health Bethesda. Mryland David Landsman National Center fro Biotechnology Informaiton Computational Biology Branch National Library of Medicine National Institute of Health Bethsda. Maryland 本书对数据库的讨论及前几章中提供的信息都说明，当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样，所有蛋白质序列，无论是直接测得还是由核酸序列中的开放阅读框转换而来，都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术，但它们的实现需要大量时间，并对技术和技巧都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显，到写这本书时，有428,814个条目在冗余的蛋白质序列库（nr），而PDB库中仅有5017个条目1 本章的焦点是从序列本身中获取生物学发现的计算技术，与前几章中的技术不同之处于这些方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相似（但不相同），与之不同的是，构成蛋白质的20种氨基酸残基由于化学构造上差别很大，因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响，因为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构成不同类型结构都存在偏向。当然，这些属性就是生物化学的核心原理之一“序列决定构象”的基础（Anfinsen等，1961）。 GenBank发布编号100.0，1997年4月15日；PDB为1997年3月13日之数据。人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白（或反过来分析已知蛋白）。其中的大部分可通过在Geneva大学医院和Geneva大学的ExPASy服务（Appel等，1994）来获得。ExPASy工具的应用有两个焦点：既分析和确认由二维凝胶电泳分离得到的未知蛋白，也预测已知蛋白的基本性质。这些工具利用了SWISS-PROT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用，它们也能在其它实验领域中有所帮助，尤其是对色谱和沉降分析。在这里及以下内容中，包含在ExPASy中的工具都会标明，但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末列出了与本章中所提及的工具有关的因特网资源。 AACompIdent与AACompSim（ExPASy） SWISS-PROT库中搜索不同，AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白（Wilkins等，1996）。对于输入部分，该程序需要蛋白质的氨基酸组成，等电点pI和分子量（如果知道），正确的物种分类及特别的关键词。此外，用户还需在六种氨基酸“组合”中作出选择，这影响到分析如何进行。例如，某种“组合”会把残基Asp/Asn（D/N）和Gln/Glu（Q/E）组合成Asx（B）和Glx（Z）；或者某种残基会在分析中被完全除去。 pI和分子量；第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白；第三张列表中的蛋白不但基于特定物种分类，并且将pI和分子量也考虑在内。虽然计算所得结果各不相同，但零分表明了该序列与提出的组成完全相符。 AACompIdent的一个变种，AACompSim提供类似的分析，但与前者以实验所得的氨基酸组成为依据进行搜索不同，后者使用SWISS-PROT中的序列为依据（Wilkins等，1996）。利用Compute pI/MW（见下）所得的不同数值可以计算出理论等电点和分子量。有报道称，氨基酸组成在物种之间是十分保守的（Cordwell等，1995），并且通过分析氨基酸的组成，研究者能从低于25％序列相似性的蛋白之间发现弱相似性（Hobohm和Sander，1995）。因此，在“传统的”数据库搜索基础上辅以组成分析，能为蛋白质之间关系提供更多见解。 PROPSEARCH PROPSEARCH与AACompSim一样，也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。据该软件开发者称这一技术能轻易发现同一蛋白质家族的成员（Hobohm和Sander，1995）。但这一技

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

课内生物信息学第十一章利用蛋白质序列的预测方法.docVIP