- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
UniProt类数据库简介1.UniProt全球蛋白质资源(UniversalProtein.doc
UniProt类数据库简介
1. UniProt
全球蛋白质资源(Universal Protein Resource,UniProt)是全球有关蛋白质方面信息最伞面的资源库。是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。
UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,
每个部分偏向于不同的用途。
1、UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt,它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。此类信息尚未有手工注释(记为UniProt/TrEMBL)。在SwissProt或TrEMBL中没有找到的PIR—PSD记录也被存放到UniProtKB中,并且与SwissProt或TrEMBI有一个双向交叉引用。UniProtKB还提供与其他数据广泛的交叉引用, 比如说DDBJ/EMBL/GenBank核酸数据库、蛋白质结构数据库、蛋白质结构域和蛋白质家族数据库、翻译后加工数据库、种属特异性数据库,以及疾病数据库等的交叉引用。事实上,这样一个广泛的文叉引用,使得这样一个数据库成了蛋白质分子生物学信息的情报中心。
2、UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJ/EMBI,/GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index??IPI)数据。UniRef100中的数据首先将同一序列的所有记录进行聚类,相同序列以及子片段被记录为一条UniRef100条目。包含所有合并条目的接收号、蛋白质序列,以及与已知数据库和它们档案记录相关的链接。UniRef90和UniRef50是由UniRefioo数据开发得到的,旨在提供非冗余序列信息,以便于科研组织进行更快的同源搜索。所有同源性大于90%或大于50%的记录合并到一起。分别形成了UniRef90或UniRe50条目。
3、UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列。 只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJ/EMBL/Geni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。 比如说SwissProt、TrEMBL以及PIR—PSD:另外,PDB中的有一部分蛋白质序列记录是专利产品。考虑到蛋白质初级资源的种类繁多以及注释信息的注释程度与质量的参差不齐,于是建立了UniParc,它是用来从其他的资源库收集所有可获得的蛋白质序列数据, 如DDBJ/EMBI/GenBank、 UniProt/SwissProt、 UniProt/TrEMBL、PIR—PSD、Ensemble、IPI,以及欧洲专利局、美国专利局、日本专利局等。对资源进行如此的整合。使得UniParc成为一个广泛的、可公开获得的、非冗余蛋白质序列库。UniParc中每条蛋白质序列出现一次,而且也只出现一次,并用唯一的UniParc标识符进行标注。UniParc交叉引用了其他资源数据库的接收号,并以常用的风格提供序列的版本信息。一些统计标识用来显示该记录在原来资源数据库中的状态,用“active”表示该记录在原来的数据库中仍旧存在,而用“obsolete”表示该记录已经不存在了。UniParc的用途就是记录所有蛋白质序列的当前状态以及历史信息。UniParc记录中不含有注释信息。但此类的注释信息可以
您可能关注的文档
最近下载
- 波司登MSP检核专项考核及服务销售相关知识试卷.docx
- 第十七届全国大学生先进成图技术与产品信息建模创新大赛——全国总决赛赛题(建筑类).pdf VIP
- 《外科护理学肺部疾病》授课表.doc VIP
- 《GB13495.1-2015消防安全标志第1部分:标志》最新解读.pptx VIP
- 2025年(完整word版)体育单招英语试题与附标准答案 .pdf VIP
- 部编版三年级上册第一单元作业设计.pptx VIP
- 建筑地基基础工程施工规范完整版2024.pdf VIP
- 榆林能源集团有限公司招聘工作人员考试真题2024.docx VIP
- 整车座椅的设计开发方法与流程.pptx VIP
- GB50864-2013 尾矿设施施工及验收规范.docx VIP
文档评论(0)