- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物分子信息数据库-东南大学生物电子学国家重点实验室.doc
第四章 生物分子数据库
国际上已建立起许多公共生物分子数据库,包括基因图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为生物信息学研究服务。
第一节 引言
建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。生物分子信息分析已经成为分子生物学研究必备的一种方法。如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。数据库及其相关的软件分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:
时间性 对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
注释 对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
支撑数据 在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
数据质量 必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
集成性 三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。因而实验数据之间就必然存在着关联,一个方面的相关数据可能会影响或促进另一个方面的研究工作。现有的各类数据库已经成为分子生物学各方面交叉研究的桥梁。
一般而言,生物分子数据库可以分为一级数据库和二级数据库。一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
生物分子数据库目前的发展状况有几个明显的特征:
生物分子数据库最突出的特征就是数据库的更新速度不断加快,数据量呈指数增长趋势。例如,核酸序列数据的年增长幅度为100%。
数据库使用频率增长更快。据统计,数据库的平均使用频率每年增长幅度为接近500%。
数据库的复杂程度不断增加(李维忠等. 1999)。数据库中除了基本数据之外,还包括大量注释、参考文献等信息,例如在SWISS-PROT数据库中注释项涉及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、相关疾病、序列冲突等。
数据库网络化。几乎所有的数据库都可以在国际互连网上访问,并且公共数据库之间相互链接,使用户可以迅速得到大量的相关生物分子信息。有的系统则将多个生物分子数据库整合在一起,形成集成的数据库系统。
面向应用。首先,各个数据库服务器除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等,生物大分子结构数据库提供的结构比较程序、结构模拟程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。
先进的软硬件配置。从计算机硬件上来看,许多数据库服务器已从工作站升级到大型服务器,使数据库能够高效地管理数据和为用户服务,并在专门的硬件上(如并行机)运行服务程序。而在系统软件方面,使用大型数据库管理系统,面向对象的数据库管理方法正在逐步取代旧的模式,数据库服务广泛采用服务器客户式结构。
第二节 核酸序列数据库
1、EMBL/Genbank/ DDBJ
图4.1 核酸序列数据的增长趋势
(纵轴代表总的核酸序列长度,单位:百万bp)
核酸序列是了解生物体结构、功能、发育的出发点。国际上权威的核酸序列数据库有三个,分别是欧洲分子生物学实验室的EMBL(Stoesser et al., 2001;http://www.embl-heidelberg.de),美国生物技术信息中心的GenBank (Benson et al., 2001;/Web/Genbank/index.html),日本遗传研究所的DDBJ (Satoru, 20
您可能关注的文档
最近下载
- 福建省漳州第一中学(西湖校区)2024-2025学年高一下学期第一次阶段考试生物学试题(含答案).pdf VIP
- 心血管-肾脏-代谢综合征患者的综合管理中国专家共识(2025)解读PPT课件.pptx VIP
- YD∕T 5066-2017 -光缆线路自动监测系统工程设计规范.pdf VIP
- (高清版)B-T 17671-2021 水泥胶砂强度检验方法(ISO法).pdf VIP
- 骨科手术切口感染的预防与控制.pptx
- 人教版初一上册《化学》模拟考试卷及答案【可打印】.docx VIP
- 《宴席设计实务》(肖炜)教案 第6课 为西式宴席设计酒水.docx VIP
- 塔吊驾驶员安全培训试题及答案.doc VIP
- ASME BPVC-VII-2017 锅炉及压力容器规范 第七卷:动力锅炉维护推荐指南 国外国际标准.pdf VIP
- GB_T 17671-2021水泥胶砂强度检验方法(ISO法).docx VIP
文档评论(0)