蛋白质结构预测2.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用蛋白质序列的预测方法 ? Andreas D. Baxevanis Genome Technology Branch National Human Genome Research Institute National Institutes of Health Bethesda. Mryland David Landsman National Center fro Biotechnology Informaiton Computational Biology Branch National Library of Medicine National Institute of Health Bethsda. Maryland 本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到写这本书时,有428,814个条目在冗余的蛋白质序列库(nr),而PDB库中仅有5017个条目1。为缩小这一差距所做的尝试都围绕于“预测的方法”。这些序列条目能在缺少生物化学数据的情况下提供关于蛋白质性质的见解。 本章的焦点是从序列本身中获取生物学发现的计算技术,与前几章中的技术不同之处于这些方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相似(但不相同),与之不同的是,构成蛋白质的20种氨基酸残基由于化学构造上差别很大,因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响,因为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构成不同类型结构都存在偏向。当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础(Anfinsen等,1961)。 在谈及这种或那种预测技术之前要预先说明的是,无论用哪种方法,这些结果都是预测。不同的方法,采用了不同的算法,可能产生相同或不同的结果。但有一点很重要:弄清楚某种方法的原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。虽然如此,存在一种强大合作的潜力:正确应用这些预测技术,参照以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。 GenBank发布编号100.0,1997年4月15日;PDB为1997年3月13日之数据。 基于组成的蛋白质辨识 人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在Geneva大学医院和Geneva大学的ExPASy服务(Appel等,1994)来获得。ExPASy工具的应用有两个焦点:既分析和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了SWISS-PROT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其它实验领域中有所帮助,尤其是对色谱和沉降分析。在这里及以下内容中,包含在ExPASy中的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末列出了与本章中所提及的工具有关的因特网资源。 AACompIdent与AACompSim(ExPASy) 与把氨基酸序列在SWISS-PROT库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白(Wilkins等,1996)。对于输入部分,该程序需要蛋白质的氨基酸组成,等电点pI和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把残基Asp/Asn(D/N)和Gln/Glu(Q/E)组合成Asx(B)和Glx(Z);或者某种残基会在分析中被完全除去。 对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分。由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不考虑pI和分子量;第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI和分子量也考虑在内。虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。 AACompIdent的一个变种,AACompSim提供类似的分析,但与前者以实验所得

文档评论(0)

zzqky + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档