- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章生物学数据库及其检索第二章生物学数据库及其检索
* * SWISS-PROT数据库内容 核心数据:包括蛋白质序列、引用文献、分类信息等。 注 释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似性等。 SWISS-PROT将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其他数据库交互索引。 通过SWISS-PROT数据库可以得到某蛋白质的序列,再通过交互引用从PDB数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同。 2. PIR PIR的子数据库: 蛋白质序列数据库(PIR-PSD) 蛋白质分类数据库(iProClass) 非冗余的蛋白质参考资料数据库(PIR-NREF) PIR数据库按照数据性质和注释层次分四个部分: PIR1序列已经验证,注释最为详尽; PIR2为尚未确定的冗余序列; PIR3序列既未检验,也未注释; PIR4序列来自其它渠道,既未验证,也无注释。 美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-International)共同维护。 PIR是第一个蛋白质分类和功能注释数据库 PIR作用: 提供基于文本的交互式检索、序列相似性 搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。 PIR网址:/ 3.TrEMBL 是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。 主要包含从EMBL/ Genbank/DDBJ三大核酸数据库中根据编码序列翻译的、尚未集成到SWISS-PROT数据库中的蛋白质序列。 TrEMBL为SWISS-PROT数据库及时提供补充。 TrEMBL网址:http://www.ebi.ac.uk/trembl/ 4. UniProt UniProt将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。 UniProt网站主页 UniProt包含UniProtKB、UniRef 和UniParc 3个部分: (1)UniProtKB数据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉引用等信息存取中心; (2)UniRef数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将UniRef数据库分为UniRef100、UniRef90和UniRef50 3个子库 (3)UniParc(UniProt Archive):储存大量蛋白质研究的历史信息。 UniProt网址:/index.shtml 5. GenPept数据库 GenPept数据库特点 由Genebank数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。 (二)蛋白质序列二次数据库 1.PROSITE PROSITE是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,收录蛋白质家族中同源序列多重比对所确定的保守性区域:如酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。 PROSITE数据库组成 包含Prosite(数据文件)和PrositeDoc(说明文件)两个文件数据库。 PROSITE数据库主页 / PROSITE数据库作用:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。 PROSITE的网址:http://www.expasy.ch/prosite/ 或 /prosite/ PROSITE的中国镜像网址是:/prosite/ 2.PRINTS PRINTS蛋白质指纹图谱数据库将多个保守的序列模式作为识别蛋白质家族的特征,与PROSITE数据库的单个序列模式相比,PRINTS具有更好的识别率。 PRINTS 网址:http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ 3.BLOCKS 序列模块(block):是通过序列比对得到的若干蛋白质序列中具有较高相似性的序列片段。 BLOCKS由通过自动检测PROSITE数据库和PRINTS蛋白质指纹图谱数据库中蛋白质家族高度保守区域产生的序列模块组成。 BLOCKS的网址:
文档评论(0)