生物信息学第二讲数据库与数据存储格式上篇资料.ppt

生物信息学第二讲数据库与数据存储格式上篇资料.ppt

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 理解数据库的概念 了解几种主要的生物大分子信息数据库 本章要求 人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。 ?shell+sed+awk+C才能完成的任务,只需perl脚本就可以完成了。而且应用领域一直在拓宽,支持面向对象程序设计。 * * * * * * * * * ?GenBank statistics ?From 1982 to the present, the number of bases in GenBank has doubled approximately every 18 months. 1980年开始建设,1982年正式运行 欧洲主要的核酸序列收集单位 欧洲生物信息中心(EBI),德国海德堡站点负责维护 EMBL数据库 EMBL数据库的数据来源有三种: 直接来源于测序工作者提交的序列(Sanger测序中心) 与其它数据机构协作交换的数据 欧洲专利局提供的专利数据 日本1984年开始建立,并于1987年正式服务。 亚洲唯一的核酸序列数据库 生物信息学中心和日本国家遗传研究所的DNA数据库(CIB-DDBJ),共同组建。 DDBJ数据库 DDBJ数据库的数据来源有二种: 研究者提交的序列(90%直接来源于日本) 与其它数据机构协作交换的数据 蛋白质序列数据库 重要蛋白质序列数据库: SWISS-PROT(欧洲) PIR(美国) 蛋白质序列数据库 SWISS-PROT和PIR是国际上两个主要的蛋白质序列数据库,目前这两个个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。 PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。 二种蛋白质数据库种类和特点 名称 维护 单位 注释 冗余度 数据量 更新 SWISS-PROT EBI 部分完善 小 中等 较慢 PIR NCBI 完善 较大 较大 较慢 SWISS-PROT 蛋白数据库 1986创建瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护 在EMBL和GenBank数据库上均建立了镜像站点; 数据库包括了从EMBL翻译而来的蛋白质序列,经过 检验和注释; 数据记录包括两部分: 序列 注释:结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰 数据存在滞后性 * Swiss-prot储存数据增速放缓 /sprot PIR 蛋白数据库 PIR (Protein information resource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据依据注释的质量分为4类。 分类名称 (Name) 说明 (Comment) 记录数 (Number of entries) PIR1 已分类、已注释 (Classified and annotated) 13572 PIR2 已注释(Annotated) 69368 PIR3 未核实(Unverified) 7508 PIR4 未翻译(Unencoded or untranslated) 196 PIR数据库的分类情况 * * / 三个子数据库 生物大分子三维结构数据库 蛋白质结构数据库 PDB 蛋白质分类数据库 SCOP和CATH PDB蛋白结构数据库 1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。 /pdb http://www.ebi.ac.uk/thornton-rv/d

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档