生物信息学数库综述.docVIP

下载本文档

3
0
约1万字
约 5页
2017-06-14 发布于河南
举报
版权申诉

生物信息学数库综述.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物信息学数库综述

生物信息学数据库综述摘要本文对生物信息学常见的数据库进行了汇总。常见数据库分为三类：核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。并分别对其中常见数据库进行了介绍。对于生物信息学数据库的现存问题也进行了论述。关键词数据库；核酸序列数据库；蛋白质序列数据库；三维分子结构数据库；随着生物信息的发展，生物信息学数据库的数量在不断的递增，内部结构也不断的复杂化，功能也越来越细化。根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。本文将比较常见的数据进行了汇总。 1 核酸序列数据库常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。 1.1GenBank Genbank库包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(N CBI)建立和维护的。Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库，和日本的DNA数据库(DDBJ)交换数据，使这三个数据库的数据同步。Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库，或下载积累的新数据。N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务，用户可以从N CBI的主页上找到这些服务。Gel~ bank 库里的所有数据记录被划分在若干个文件里，如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被各自分成若干个文件 1.2 EM BL核酸序列数据库 EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成，由于与Genbank和DDBJ的数据合作交换，它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护，查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。 1.3 DD BJ 数据库 D D BJ数据库创建于1984 年，由日本国立遗传学研究所遗传信息中心维护。它首先反映日本所产生的DNA数据，同时与Genbank、EMBL合作互通有无，同步更新，每年四版。日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。可以使用其主页上提供的SAS工具进行数据检索和分析。可以用Sequin软件向该数据库提交序列。 1 ．4 G D B 人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。GDB的目标是构建关于人类基因组图谱和测序。目前GDB中有：人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoint细胞遗传标记cytogenetic markers、易碎位点f r agile、 EST序列、综合区域syndromic regions、contigs和重复序列)；人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content conting图谱和综合图谱等)；人类基因组内的变异(包括突变和多态性，加上登位基因频率数据)。GDB数据库以对象模型来保存数据，提供基于Web的数据对象检索服务，用户可以搜索各种类型的对象，并以图形方式看基因组图谱。 2蛋白质序列数据库随着 HGP 计划的不断深入以及测序技术的不进步，蛋白质序列信息也成指数级增长，蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源，并辅以序列来源序列发布时间、序列参考文献、序列特征等内容加以注释，最终形成数据文件，存放于数据库。目前规模较大的综合型蛋白质序列数据库有：PIR 、SW ISS —PR OT／TrEMBL、PROSITE 等。 2 ．1 PIR 和 PSD PI R是蛋白质信息资源(Protein Information Re—source)的缩写。这是一个国际蛋白质序列数据库，它包含所有序列已知的自然界中野生型蛋白质的信息。此库的主要目的是提供按同源性和分类学组织的综合的、非冗余的数据库，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99％的序列以按蛋白质家族分类。PIR国际蛋白质序列数据库(PSD)是由美国华盛顿的全国生物医学研究基金会(NBRF)所支持的PIR、慕尼黑蛋白质序列信息中心(MIPS)和13本国际蛋白质序列数据库(JI PI D )共同维护的国际上最大的公共蛋白质序列数据库。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引。每季度都放行一次完整的数据库，每周可以得到更新部分。 2 ．2 SWISS—PROT