- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息数据库PPT
(2?)最小冗余 ? 尽量将相关的数据归并,降低数据库的冗余程度。 ? 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。 (3?)与其它数据库的连接 对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。 TrEMBL (http://www.ebi.ac.uk/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白 质序列,并且这些序列尚未集成到SWISS-PROT数据库中。 TrEMBL有两个部分: (1)SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。 (2)REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有 登录号。 进入网站,后在搜索栏里键入关键词,点击“GO”图标 Example 在搜索结果里找需要的信息即可 PIR?(protein?information?resource)? 1.? 由美国NCBI翻译自GenBank的DNA序列(1984年);? 2.? 在EMBL和GenBank数据库上均建立了镜像站点;? 3.? 数据依据注释的质量分为4类。 网址:?/? PIR?数据库的分类情况 (Release?51.03)? 分类名称? (Name)? PIR1? PIR2? PIR3? PIR4? 说明? (Comment)? 已分类、已注释? (Classified?and?annotated)? 已注释(Annotated)? 未核实(Unverified)? 未翻译(Unencoded?or? untranslated)? 记录数? (Number?of?entries)? 13572? 69368? 7508? 196? PIR(Protein Information Resource) § 目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 § 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。 § 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。 除了蛋白质序列数据之外,PIR还包含以下 信息:? (1)蛋白质名称、蛋白质的分类、蛋白质的来 源;? (2)关于原始数据的参考文献;? (3)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等;? (4)序列中相关的位点、功能区域。 PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。 三个子数据库 输入蛋白质代码1zni后search Example 4?、蛋白质结构数据库 PDB?(protein?data?bank )? 1.? 目前最主要的蛋白质分子结构数据库;? 2.??1970年代建立,美国Brookhaven国家实验室维护管理?? 3.??1988年,由美国RCSB(research?collaboratory?for? structural?biology)管理;? 4.? 以文本格式存放数据,包括原子坐标、物种来源、测定 方法、提交者信息、一级结构、二级结构等;? 5.? PDBsum数据库:PDB注释信息综合数据库,具有检 索、分析、可视化的功能。? PDB的网址:/pdb(美国)? PDBsum的网址:http://www.biochem.ucl.ac.uk/bsm/pdbsum PDB(Protein?Data?Bank) PDB中含有通过实验(X射线晶体衍射,核磁共振?NMR)测定的生物大分子的三维结构? –蛋白质? –核酸? –糖类? –其它复合物? ?? 一种是隐式序列信息(implicit?sequence)? PDB的隐式序列即为立体化学数据, 包括每个原子的名称和原子的三维坐 标。 一种是显式序列信息 (explicit?sequence) 在PDB文件中,以关键字SEQRES作 为显式序
文档评论(0)