- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学数据库及利用方法
生物信息学数据库及其利用方法
摘 要:阐述了生物信息学数据库在生物信息学的发展过程中发挥的巨大作用;介绍了世界上主要的生物信息学数据库及其分类和特点;论述了如何利用生物信息学数据库;最后,对利用国际生物信息学数据库促进我国生物信息学的发展做出了展望。
关键词:数据库;生物信息学;序列比对;数据挖掘;知识发现;
1 生物信息学数据库的产生
从20 世纪 80 年代末开始,伴随着人类基因组计划( Human Genome Project, HGP) 的启动,生物信息学 ( Bioin formatics ) 这一由生物学、化学、物理、数学、信息科学和计算机科学等多学科交叉产生的新兴学科蓬勃发展,并被许多著名科学家称为 21 世纪自然科学的核心领域。生物信息学是计算机和网络大发展及各种生物学实验数据迅猛增长形势下发展起来的组织生物学数据,并从数据中提取新知识的一门学科,它主要研究生物系统中的信息现象、信息流及其相互作用和调控规律,是一门理论与实践应用并重的学科。1997年 12 月,中国科学院召开了以 “生物信息学” 为主题的第 87 次香山科技会议,来自海峡两岸的 30多位生物学、物理学、化学和信息科学诸领域的专家学者出席会议,他们一致认为“生物信息学处在重大科学发现的前夜”。目前,生物信息学以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为理论基础,以计算机、网络、应用软件为工具,对海量生物原始数据进行存贮、管理、注释、开发和加工,使之成为具有明确生物学意义的生物信息,并进一步通过对生物信息的查询、搜索、对比、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互作用的知识。在掌握大量信息和知识的基础上,探索生命起源和生物进化,以及生物的个体发生、发育和遗传之间的相互关系以及病变、死亡等生命科学中的重大问题,搞清它们的基本规律和时空联系,建立类似于化学元素周期表的“生物学周期表”。生物信息学已成为整个生物学发展的重要组成部分,在今后相当长的时期内是生物学研究的平台性、交叉性和前沿性的学科。
2 主要生物信息学数据库
美国、欧洲各国及日本等世界发达国家在生物信息学数据库建设和成立生物信息学专业机构两方面均走在世界前列,已相继在因特网上建立了各自的生物信息学网络节点,管理大型数据库,提供数据的分析、处理、采集、交换等服务。目前,国际上三大核苷酸、蛋白质数据库分别是:美国国家生物技术信息中心 ( NCBI)的 GenBank 数据库 ( http: ∥www. ncbi. nlm. nih. gov)、 欧洲生物信息学研究所 ( EBI) 的核酸序列数据库 EMBL ( http: ∥www. ebi. ac. uk /embl)和日本信息生物学中心 ( CIB) 的 DNA 数据库 DDBJ( http: ∥www. ddbj. nig. ac. uk / embl) ,它们每天都会交换数据,使其数据库的数据同步。著名的蛋白质序列数据库还有美国生物医学基金会建立的 PIR 和瑞士生物信息学研究所和欧洲分子生物学实验室共同维护的 SWISS-PROT,而著名的蛋白质结构数据库是美国 Brookhaven 实验室的 PDB。这些数据库中的数据来源于众多的研究机构和基因测序小组,或者来源于科学文献。
3 生物信息学数据库的分类及特点
按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家或国际组织建设和维护的数据库,,如由美国NCBI所维护的 GenBank 等。二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整)而成的数据库。其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。 SWISS-PROT 就是一个典型的专家库。还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就是整合数据库。生物信息学数据库具有以下一些特点:( 1)数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。( 2)数据库的更新和增长很快。数据库的更新周期越来越短,有些数据库每天都要更新。数据的规模也以指数形式增长。( 3) 数据库的复杂性增加,层次加深。许多数据库具有相关的
文档评论(0)