2.8二级蛋白质序列数据库-02-结构分类数据库CATH.pdf

2.8二级蛋白质序列数据库-02-结构分类数据库CATH.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第二章:生物数据库(第二部分) 二级蛋白质结构数据库:结构分类数据库 CATH 根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结 构分类数据库。CATH 数据库 由伦敦大学 1993 年创建。CATH 这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。也就是,所有蛋 白质结构域在 CATH 中被首先分成 4 种 CLASS,这就是 C。四种 CLASS 分别是全α型,全β 型, α +β型,低二级结构型。比如图 1 中第一行这三个蛋白质,很显然左边是全α的,右 边是全β的,中间是 α +β的。 图 1. CATH 分类示意图 每一个 Class 中的结构域又被具体分为不同的 architecture,也就是 A。A 这一层是按照 螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个 class 下的结构可以进一步 分为桶状的,三明治状的,还有滚轴状等 Architecture。每种 Architecture 里的结构域,又可 以根据二级结构的形状和二级结构间的联系更进一步分为不同的 topology,也就是 T。最后 再通过序列比较以及结构比较确定同源性分类,划分出不同的 homologous superfamily,也就 是 H。这样每个结构从粗到细,即从 A 到 H,会有四个层次的分类。注意结构分类是以结 构域为单位进行的,而不是针对整个蛋白。所以 PDB 中的一个蛋白质结构可能对应 CATH 中多个结构域分类。CATH 在分类时既使用计算机程序,也进行人工检查。 CATH 为每一层的每一种结构分类命名,并用数字代号代表这一分类。因此每个结构域 会具有一个分类代码。第一个数字是 C 这一层的分类代码,第 2 个数字是 A 这一层的分类 代码,第 3 个数字是 T 这一层的分类代码,第 4 个数字是 H 这一层的分类代码。 目前 CATH 已为 PDB 数据库中 10 多万个蛋白质结构所涉及的 30 多万个结构域进行了 结构分类,这些分类可以归入两千七百多个蛋白质超家族中。此外,CATH-Gene3D 还为超 过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多 数还未解析 3D 结构的蛋白质提供了重要的功能研究依据。 接下来,我们从 CATH 数据库搜索一个 PDB 结构的分类信息。搜索条输入 3H6X,这 是我们在 PDB 数据库里查看过的 dUTPase 的结构。结果显示 dUTPase 蛋白的结构分类代码 是 2.70.40.10。点击这个分类代码,可以获得各层次具体的结构分类信息以及各种结构 相关分析信息。结果页面的下半部分还提供聚类图。这里,CATH 把所有拥有 2.70.40.10 结构分类的结构域,根据他们的序列相似度不同,进行了聚类(图 2)。不同深浅的圈代表 不同的序列相似度。通过这张图,我们可以了解到具有相同结构分类的蛋白质他们在序列水 平上的亲缘关系远近。 图 2. CATH 结构域聚类图 此外,CATH 还从 2.70.40.10这个结构分类里挑出了 19 个有代表性的结构域,并且 把他们的 3D 结构叠加在了一起(图 3)。从这个图上,我们可以看到这个结构分类的总体特 征以及差异产生的位置。 图 3. CATH 结构域叠加图

文档评论(0)

恬淡虚无 + 关注
实名认证
内容提供者

学高为师,身正为范.师者,传道授业解惑也。做一个有理想,有道德,有思想,有文化,有信念的人。 学无止境:活到老,学到老!有缘学习更多关注桃报:奉献教育,点店铺。

1亿VIP精品文档

相关文档