网上生物信息学据库资源_万跃华.docVIP

  • 32
  • 0
  • 约3.6万字
  • 约 29页
  • 2018-06-24 发布于浙江
  • 举报
网上生物信息学据库资源_万跃华

网上生物信息学数据库资源1) 万跃华 何立民 (浙江工业大学图书馆,杭州310032) 分子序列数据和实验测定的序列进行结构比较和 统计分析,揭示出生物大分子的分子结构、功能和进 化关系。因此,它是分子生物学研究的一个新领域, 同时也是生命科学和自然科学的重大前沿领域之 一,其研究重点主要体现在基因组学(Genomics)和 蛋白组学(Proteomics)两方面。具体说就是从核酸和 蛋白质序列出发,分析序列中表达的结构功能的生 物信息。 数据库是生物信息学的主要内容之一。生物信 息学数据库具有以下一些特点:(1)数据库种类的多 样性。生物信息学各类数据库几乎覆盖了生命科学 的各个领域,如核酸序列数据库,蛋白质序列数据 库,蛋白质、核酸、多糖的三维结构数据库,基因组数 据库,文献数据库(如Medline,Uncover)和其他杂类 数百种。(2)数据库的更新和增长快。数据库的更 新周期越来越短,有些数据库每天更新。数据的规 模以指数形式增长。(3)数据库的复杂性增加、层次 加深。许多数据库具有相关的内容和信息,数据库 之间相互引用,如PDB就与文献库、酶学数据库、蛋 白质二级数据库、蛋白质结构分类数据库、蛋白折叠 库等十几种数据库直接交联。(4)数据库使用高度 计算机化和网络化。越来越多的生物信息学数据库 与因特网联结,从而为分子生物学家利用这些信息 资源提供了前所未有的机遇。绝大多数网上生物信 息学数据库中的信息资源可免费检索或下载。随着 网络信息检索工具搜索引擎的不断发展,生物信息 学数据库的网上信息资源检索越来越方便、快速,这 对我国开展生物信息学研究以及人类和水稻基因组 工程的DNA序列数据的分析提供了捷径。特别是 当前我国生物信息学自建数据库不丰富和引进数据 库又比较少的情况下,探讨和研究如何充分开发和 利用网络上免费的生物信息学数据库信息资源显得 尤为重要。 2 生物信息学数据库种类 生物信息数据库种类繁多,归纳起来,大体可以 分为4个大类:基因组数据库,核酸和蛋白质一级结 构序列数据库,生物大分子(主要是蛋白质)三维空 间结构数据库,以及以这3类数据库和文献资料为 基础构建的二次数据库。基因组数据库来自基因组 作图,序列数据库来自序列测定,结构数据库来自 X-衍射和核磁共振结构测定。这些数据库是分子生 物信息学的基本数据资源,通常称为基本数据库或 初始数据库,也称一次数据库。根据生命科学不同 研究领域的实际需要,对基因组图谱、核酸和蛋白质 序列、蛋白质结构以及文献等数据进行分析、整理、 归纳、注释,构建具有特殊生物学意义和专门用途的 二次数据库,是数据库开发的有效途径。近年来,世 界各国的生物学家和计算机科学家合作,已经开发 了几百个二次数据库和复合数据库,也称专门数据 库或专业数据库、专用数据库。 一次数据库的数据量大、更新速度快、用户面 广,通常需要高性能的计算机硬件、大容量的磁盘空 间和专门的数据库管理系统支撑。例如,欧洲生物 信息学研究所用Oracle数据库软件管理、维护核酸 数据库EMBL。而基因组数据库GDB的管理、运行 则基于Sybase数据库系统。Oracle和Sybase均为流 行的数据库管理商业软件。而二次数据库的容量则 要小得多,更新速度也不像一次数据库那样快,可以 不用大型商业数据库软件支撑。许多二次数据库的 开发基于Web浏览器,使用超文本语言HTML和Ja- va程序编写的图形界面,有的还带有搜索程序。这 类针对不同问题开发的二次数据库的最大特点是使 用方便,特别适用于计算机使用经验并不丰富的生 物学家。 二次数据库种类繁多。以核酸数据库为基础构 建的二次数据库有基因调控转录因子数据库Tr- ansFac[1~2](http: transfac.gbf.de TRANSFAC ),真核 生物启动子数据库EPD[3~4](Eukaryotic Promoter Da- tabase)(http: www.epd.isb-sib.ch.),克隆载体数据 库Vector[5],密码子使用表数据库CUTG等。以蛋白 质序列数据库为基础构建的二次数据库有蛋白质功 能位点数据库PROSITE[6~7],蛋白质功能位点序列 片段数据库PRINTS[8~10](http: www.bioinf.man.ac. uk dbbrowser PRINTS ),同源蛋白家族数据库Pfam- [11~12](http: www.sanger.ac.uk Software Pfam ),同源 蛋白结构域数据库Blocks[13~15]。以具有特殊功能的 蛋白为基础构建的二次数据库有免疫球蛋白数据库 Kabat[16](http: ),蛋白激酶数 据库PKinase等。以三维结构原子坐标为基础构建 的数据

文档评论(0)

1亿VIP精品文档

相关文档