- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[初中教育]第二章 分子数据库
相关文献数据库 (database cross-reference, DR)需要做进一步的说明。许多二级数据库内容来自初始数据库,例如OMIM(Online Mendelian Inheritance in Man)数据库是有关人类遗传疾病的数据,如果OMIM中的一个记录与EMBL中一个已知序列的基因有关,则该基因将与该记录建立联系,则EMBL库中该序列的DR栏中将包括OMIM和OMIM中相关记录的名称。上述例子(图2.3)的DR栏中有该DNA序列翻译成蛋白质序列的SWISS-PROT记录号等。从此可见,DR栏内容非常重要,它有助于了解与该原始DNA序列相关信息的状况和存贮站点。 与DR栏可能有关的一些数据库包括SWISS-PROT、 EMBL、OMIM、PROSITE(保守蛋白质模序数据库,见下文)、HSSP、PDB、MEDLNE(与RL栏相关的文献摘要数据库)、PIR等。注释中另一个需要说明的重要内容是主表数据(feature table data, FT)栏。主表试图将尽可能多的序列信息囊括其中,并以计算机可以阅读的格式编排。3个主要DNA数据库(EMBL、GenBank和DDBJ)已经对该表的表述格式达成了一致。具体表述格式内容说明可在www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html找到。 大量的DNA序列记录包含有一个以上的开放读框(ORF)。主表中的PID编号被用于唯一地指定每一个ORF。这一编号是一个非常重要的注释信息,因为它可以使许多不同的SWISS-PROT记录与一个相同的EMBL序列相链接,可以精确地知道EMBL序列中的ORF所对应的SWISS-PROT蛋白质记录。 第三节 数据库信息检索系统 许多系统可以为使用者提供简便的序列库信息查寻服务,其中最著名和操作性最强的2个系统是Entrez(由美国建立)和SRS(Sequence retrieval System)(由EMBL Theore Etzold建立)。 * * 第二章 分子数据库 第一节 初级数据库 第二节 初级序列数据的注释 第三节 数据库信息检索系统 第四节 数据库的冗余与偏误 第五节 向数据库发送序列数据及其它 生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。初级数据库贮存原始的生物数据,如DNA序列,由晶体衍射(Crystallography)获得的蛋白质结构等。二级数据是在初级数据库的基础上经加工和增加相关信息,使它们更便于特定专业人员的使用,如真核生物启动子序列库EPD和蛋白质一般结构或功能模体(motif)数据库PROSITE。 一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,这一点值得注意。在基因组规模上的测序过程便产生了注释问题。对于那些从自动测序仪中出来的序列,我们往往只知道它们来自何种细胞类型,而其它方面却知之甚少。如果你在确定一段未知蛋白质序列的功能,发现一个与之匹配的序列,但该序列却没有任何有关功能的信息时,你的研究工作便很难为继了。 不同的数据库的注释质量差异很大,因为一个数据库往往要在数据的完整性和注释工作量之间寻找一个平衡点。一些数据库提供的序列数据很广,但这必定会影响序列的注释;相反,一些数据库数据面较窄,但它提供了非常全面的注释。数据库记录的注释工作是一个动态过程,新的发现不断被补充进去,所以,本书中用到的一些注释信息可能很快便被更新了。在所有的生物信息数据库中总会有一小部分的记录(包括原始序列数据和注释)是不正确的,这是一个无法避免的事实。 第一节 初级数据库 一、DNA数据库 DNA序列构成了初级数据库的主体部分。目前国际上有3个主要的DNA序列公共数据库(表2.1): 欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)(位于英国剑桥),GenBank[美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI),该中心隶属于美国家医学图书馆,位于美国国家卫生研究院(NIH)内]和日本DNA数据库(DNA Databank of Japan,DDBJ)。 这3个大型数据库于1988年达成协议,组成合作联合体。它们每天交换信息,并对数据库DNA序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责亚洲等),然后来自各地的所有信息汇总在一起,3个数据库共同享有并向世界开放,故这3个数据库又被称
文档评论(0)