生物信息学 第十一章利用蛋白质序列的预测方法.docVIP

生物信息学 第十一章利用蛋白质序列的预测方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学 第十一章利用蛋白质序列的预测方法

11 利用蛋白质序列的预测方法 Andreas D. Baxevanis Genome Technology Branch National Human Genome Research Institute National Institutes of Health Bethesda. Mryland David Landsman National Center fro Biotechnology Informaiton Computational Biology Branch National Library of Medicine National Institute of Health Bethsda. Maryland 本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到写这本书时,有428,814个条目在冗余的蛋白质序列库(nr),而PDB库中仅有5017个条目1 本章的焦点是从序列本身中获取生物学发现的计算技术,与前几章中的技术不同之处于这些方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相似(但不相同),与之不同的是,构成蛋白质的20种氨基酸残基由于化学构造上差别很大,因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响,因为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构成不同类型结构都存在偏向。当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础(Anfinsen等,1961)。 GenBank发布编号100.0,1997年4月15日;PDB为1997年3月13日之数据。 人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在Geneva大学医院和Geneva大学的ExPASy服务(Appel等,1994)来获得。ExPASy工具的应用有两个焦点:既分析和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了SWISS-PROT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其它实验领域中有所帮助,尤其是对色谱和沉降分析。在这里及以下内容中,包含在ExPASy中的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末列出了与本章中所提及的工具有关的因特网资源。 AACompIdent与AACompSim(ExPASy) SWISS-PROT库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白(Wilkins等,1996)。对于输入部分,该程序需要蛋白质的氨基酸组成,等电点pI和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把残基Asp/Asn(D/N)和Gln/Glu(Q/E)组合成Asx(B)和Glx(Z);或者某种残基会在分析中被完全除去。 pI和分子量;第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI和分子量也考虑在内。虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。 AACompIdent的一个变种,AACompSim提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用SWISS-PROT中的序列为依据(Wilkins等,1996)。利用Compute pI/MW(见下)所得的不同数值可以计算出理论等电点和分子量。有报道称,氨基酸组成在物种之间是十分保守的(Cordwell等,1995),并且通过分析氨基酸的组成,研究者能从低于25%序列相似性的蛋白之间发现弱相似性(Hobohm和Sander,1995)。因此,在“传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解。 PROPSEARCH PROPSEARCH与AACompSim一样,也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。据该软件开发者称这一技术能轻易发现同一蛋白质家族的成员(Hobohm和Sander,1995)。但这一技术比AA

文档评论(0)

aining + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档