生物信息学GenBank序列数据库.docVIP

下载本文档

34
0
约1.49万字
约 19页
2017-03-30 发布于江苏
举报
版权申诉

生物信息学GenBank序列数据库.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物信息学GenBank序列数据库

第二章 GenBank序列数据库简介一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯，以致于我们很少会去考虑这些普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是如何汇集到一起的，这将有助于我们加深对生物学的理解，并且能够更加充分地发掘这些记录中蕴藏的信息。 GenBank是美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组：有些按照系统发生学划分，另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表，或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立，与日本DNA数据库（DDBJ）以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库（EMBL）一起，都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交，而三个中心之间则逐日交换信息，并制作相同的充分详细的数据库向公众开放（虽然格式上有细微的差别，并且所使用的信息系统也略有不同）。这一章描述GenBank数据库是如何构成的，它如何与蛋白质数据库相衔接，以及如何解释其中的数据成分。关于序列数据库，前人已经作了大量的工作，具体可参见（Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997）。所有这些论文都指出了数据库快速增长的趋势，并对如何利用这些生物学资源提出了建议。出于科学研究的考虑，以及由于历史的原因，序列数据被分别存放在核苷酸和蛋白质数据库中。核苷酸序列是查询核苷酸数据库以及蛋白质数据库时的主要出发点，并且目前有一种趋势，将核苷酸数据库介入到蛋白质数据库的管理之中（正如我们下面将要看到的那样）。这并不奇怪，因为数据库维护者与数据提交者之间的直接通讯将有利于保证数据的真实性与准确性（提交者需要一个检索号，并且他们想要得到他们添加到数据库中的新记录）。在很多情况下，这种对数据的关注意味着提供适当的信息来注释CDS（coding sequence：编码序列），并告诉我们如何得到翻译产物。这种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的Entrez之中，在GenBank的管理之中，以及在GenPept格式记录的生成过程之中。在欧洲，EBI的工作人员统一维护管理Swiss-Prot和TREMBL，这些工作人员也负责EMBL核苷酸数据库的管理工作。还有Amos Bairoch和他在日内瓦大学的研究组。（见本章后的列表）。尽管如此，建立核苷酸和蛋白质数据库的初衷还是有区别的。本章还初步讨论了将在第六章详细描述的数据模型。这一章主要是从GenBank flatfile的角度介绍序列数据，但必须明确的是，“flatfile”（不论是GenBank, EMBL, Swiss-Prot或PIR），都只是ASN.1报告的一个方面。而ASN.1才是代表了NCBI数据模型的语言。GenBank以DNA为核心，包含了许多计算生物学资源。历史上，蛋白质数据库先于核苷酸数据库。在60年代初，Dayhoff和他的同事们收集了所有当时已知的氨基酸序列，这就是“蛋白质序列与结构图册”（Dayhoff et al., 1965）。这一蛋白质数据库后来成为PIR（George et al., 1997）。这本书为今天整个生物信息学界日常工作所依赖的计算生物学资源播下了种子。这个在1965年可以很容易地存放在一张软盘上的数据集（尽管那时并不存在软盘这种存储介质），是一小群人多年的工作成果。今天，任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。最早的DNA序列数据库于1982年在欧洲分子生物学实验室诞生，随即就开始了一个数据库爆炸的时代。（见图2.1）。R. Cook-Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。两个中心都致力于发展输入方式，这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。日本的DNA数据库（DDBJ），在几年后加入了数据收集的合作。在1988年一次三方会议之后（现在称之为“国际DNA序列数据库合作计划”）达成了一项协议，对数据库的记录采用共同的格式，并且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收