第二章 生物数库.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 生物数据库 近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。 一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ 库等;蛋白质序列数据库有 SWISS-PROT、PIR 等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色。 下面将顺序简要介绍一些著名和有特色的生物信息数据库。 2.1 基因和基因组数据库 2.1.1 Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。 Genbank库里的数据按来源于约160,000个物种,其中约17%是人类的基因组序列(所有序列中的64%是EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及 EST 数据、基因组测序数据、大规模基因组序列数据等 18 类,其中 EST 数据等又被各自分成若干个文件。 GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。DDBJ flatfile格式与GBFF格式是相同的,EMBL格式则与之有所差异。所有这些格式实际上都是由更结构化的ASN.1生成的。但是主要由于历史的原因,许多用户在工作中使用GBFF。 GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾。 头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容。所有的GenBank flatfile开始于LOCUS行。这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。为了可用起见,LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。LOCUS行中的下一项表明生物分子的类型。“分子类型”通常是DNA或RNA,但也有少量其他类型出现,以表明生物分子的最初来源。 LOCUS行中的日期是数据最后被公开的日期。在许多情况下,也是第一次被公开的日期。记录中包含的另一个日期是序列提交给数据库的日期。 DEFINITION行(也称为“DEF”行)在GenBank记录中用以总结记录的生物意义。这一行将出现在NCBI的FASTA文件中,这样任何人进行BLAST相似性搜索时都会看到这些信息。但是,用一行文字来说明生物背景并不总是可行的,对此不同的数据库采用了各自的解决方法。其中有一些共识,并且每个数据库也都了解其他数据库的解决方法,并尽力与之一致。 检索号在记录的第三行,是从数据库中检索一个记录的主要关键词。这个号码将在参考文献中被引用,并始终和序列在一起。就是说,当序

文档评论(0)

yi593pu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档