2.8二级蛋白质序列数据库-02-结构分类数据库CATH.pdf

下载文档

191
0
约1.87千字
约 3页
2021-02-12 发布于广东
举报
版权申诉
保障服务

2.8二级蛋白质序列数据库-02-结构分类数据库CATH.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《生物信息学》第二章：生物数据库（第二部分）二级蛋白质结构数据库：结构分类数据库 CATH 根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结构分类数据库。CATH 数据库由伦敦大学 1993 年创建。CATH 这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。也就是，所有蛋白质结构域在 CATH 中被首先分成 4 种 CLASS，这就是 C。四种 CLASS 分别是全α型，全β 型， α +β型，低二级结构型。比如图 1 中第一行这三个蛋白质，很显然左边是全α的，右边是全β的，中间是 α +β的。图 1. CATH 分类示意图每一个 Class 中的结构域又被具体分为不同的 architecture，也就是 A。A 这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个 class 下的结构可以进一步分为桶状的，三明治状的，还有滚轴状等 Architecture。每种 Architecture 里的结构域，又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的 topology，也就是 T。最后再通过序列比较以及结构比较确定同源性分类，划分出不同的 homologous superfamily，也就是 H。这样每个结构从粗到细，即从 A 到 H，会有四个层次的分类。注意结构分类是以结构域为单位进行的，而不是针对整个蛋白。所以 PDB 中的一个蛋白质结构可能对应 CATH 中多个结构域分类。CATH 在分类时既使用计算机程序，也进行人工检查。 CATH 为每一层的每一种结构分类命名，并用数字代号代表这一分类。因此每个结构域会具有一个分类代码。第一个数字是 C 这一层的分类代码，第 2 个数字是 A 这一层的分类代码，第 3 个数字是 T 这一层的分类代码，第 4 个数字是 H 这一层的分类代码。目前 CATH 已为 PDB 数据库中 10 多万个蛋白质结构所涉及的 30 多万个结构域进行了结构分类，这些分类可以归入两千七百多个蛋白质超家族中。此外，CATH-Gene3D 还为超过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析 3D 结构的蛋白质提供了重要的功能研究依据。接下来，我们从 CATH 数据库搜索一个 PDB 结构的分类信息。搜索条输入 3H6X，这是我们在 PDB 数据库里查看过的 dUTPase 的结构。结果显示 dUTPase 蛋白的结构分类代码是 2.70.40.10。点击这个分类代码，可以获得各层次具体的结构分类信息以及各种结构相关分析信息。结果页面的下半部分还提供聚类图。这里，CATH 把所有拥有 2.70.40.10 结构分类的结构域，根据他们的序列相似度不同，进行了聚类（图 2）。不同深浅的圈代表不同的序列相似度。通过这张图，我们可以了解到具有相同结构分类的蛋白质他们在序列水平上的亲缘关系远近。图 2. CATH 结构域聚类图此外，CATH 还从 2.70.40.10这个结构分类里挑出了 19 个有代表性的结构域，并且把他们的 3D 结构叠加在了一起（图 3）。从这个图上，我们可以看到这个结构分类的总体特征以及差异产生的位置。图 3. CATH 结构域叠加图