- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学中的数据库资源及其应用
摘要:伴随着生物信息学的发展,生物信息数据库日趋完善。现对生物信息学、数据库的建设及其应用情况进行了综述,并展望生物信息学的发展前景。
关键词:生物信息学;数据库的建设及其应用
生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。广义地说,生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。美国人类基因组计划中[1],对基因组信息学有这样的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。这一定义包含着两方面的内容,一方面是发展有效的信息分析工具,构建适合于基因组研究的数据库,用于搜集,管理,使用人类基因组和模式生物基因组的巨量信息。另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组[2]。正如基因组信息学的定义所确定的,它的研究内容主要包含两个部分,一是基因组相关数据
的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。
生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程[3]。
1 生物信息学数据库简介
近年来随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。而数据库的类型则几乎覆盖了生命科学的各个领域[4]。国际上主要的DNA序列数据库有GenBank,EMBL,DDJB,ESTdb,OMIM,GDB,GSDB 等;蛋白质一级结构数据库有SWISS-PROT,PIR,OWL,ISSD,MIPS等;蛋白质二级结构数据库有PROSITE,BLOCKS,PRINTS等; 蛋白质和其他生物大分子的三维结构数据库有PDB,NDB,CCSD 等;与蛋白质结构分类有关的数据库有SCOP,CATH,FSSP 等[5]。上述这些数据库只是对原始生物学实验数据进行简单的整理和归类,可称它们为基本数据库;随着生物数据库在种类和数量上的急剧增长,其复杂程度也不断增加,这就对数据库的管理带来了挑战,一些将多个基本数据库整合在一起提供综合服务的二次数据库便出现了,常用的有UniGene,TransFac,EPD,Prosite,Prints,Pfam,Blocks,Prof iles,DSSP,PubMed 等数据库。这样用户可以方便地进行多个数据库的多种查询。现在大多数数据库能实现自动投送数据、在线查询、在线计算和空间结构的可视化浏览等多种功能[6]。目前,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。
1.1 生物信息学数据库的分类及特点
按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家或国际组织建设和维护的数据库,如由美国NCBI所维护的GenBank等。二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整) 而成的数据库。其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。SWISS-PROT就是一个典型的专家库。还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就整
合数据库。
生物信息学数据库具有以下一些特点:数据库种类的多样性,生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。数据库的更新和增长很快,数据库的更新周期越来越短,有些数据库每天都要更新,数据的规模也以指数形式增长。数据
您可能关注的文档
最近下载
- 《新能源汽车维护》课件——第1章:新能源汽车基础认知与电池系统维护.pptx VIP
- 暖箱使用过程中出现意外情况的护理应急预案及处理流程.pdf VIP
- 《新能源汽车维护》课件——第2章:新能源汽车电机与电控系统维护.pptx VIP
- 预制房安装施工方案.docx VIP
- 儿童支气管哮喘诊断与防治指南(2025)解读PPT课件.pptx VIP
- 象外之境——中国传统山水画 课件-2024-2025学年高中美术人教版(2019)美术鉴赏.pptx VIP
- 人工智能的伦理和社会问题.pptx VIP
- 《颈椎病康复治疗》课件.ppt VIP
- 世界现代设计史第二版 第二章 工业革命前的设计.ppt VIP
- 平行四边形、矩形、菱形、正方形定义-性质和判定归纳.docx VIP
文档评论(0)