NCBI简介及序列编号说明.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

NCBI简介及序列编号说明

一:ncbi简介

ncbi的genbank与ddbj(dnadatabankofjapan)、embl的ebi数据库共同组成国际

dna数据库,每日都交换更新数据和信息,并主持两个国际年会-国际dna数据库咨询会

议和国际dna数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。

genbank存有源自于70,000多种生物的核苷酸序列。每条纪录都存有编码区(cds)

特征的注解,还包括氨基酸的译者。(就是美国国家生物技术信息中心

(nationalcenterforbiotechnologyinformation,ncbi)创建的dna序列数据

库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测

序计划(benson等,1998)。entrez是美国国家生物技术信息中心所提供的在线资源检索

器。该资源将genbank序列与其原始文献出处链接在一起。entrez是由ncbi主持的一个

数据库检索系统。它包括核酸,蛋白以及medline文摘数据库,在这三个数据库中建立了

非常完善的联系。因此,可以从一个dna序列查询到蛋白产物以及相关文献,而且,每个

条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。)

ddbj主要向研究者搜集dna序列信息并剥夺其数据读取号,信息来源主要就是日本的

研究机构,亦拒绝接受其他国家递交国书的序列。

ebi的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息

服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续

推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端

科技成果向工业界的转化;⑸协调欧洲生物数据的提供。

refseq就是ncbi数据库的参照序列。refseq资料库就是ncbi将genbank的序列再

搞详尽整理的non-redundent序列资料库,它的序列格式和genbank几乎完全相同,但因

为就是全然相同的单一制资料库,为与genbank区别,refseq的accessionnumber格式和

genbank相同。

二:常用序列编号

一般来说,mrna和基因组序列就是我们主要的找寻对象。如果想要打听标准序列的话,

mrna用nm_结尾的,基因组用nc_或者ac_结尾的。1.mrna

nm_表示标准序列,为转录产物序列;成熟mrna转录本序列。

xm_则表示预测的蛋白编码序列;mrna源自基因组注解,序列相等于基因组重叠群。

大多数属预测的。nr_则表示非编码的mRNA子序列,包含结构rnas,假基因转子等。2.基

因组

nc_完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。ac_一

些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。

三:accession编号

accession是ncbi序列数据中我们常用到编号(另一个是gi)。accession形式为

cc_#####,其中cc为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组

序列,而#为位数不等的数字;accession后面又会加版本号,以cc_####.#形式表示,最

后的尾数递增表示序列信息较之前的版本有所修改。这样accession+版本号就是一个唯一

的表示,代表一个唯一的序列,而且这个编号不会改变。

1)ac_***:genomicmixed,一些可以供选择的注解的基因组序列,主要用以标记病

毒和原核生物;2)ap_***:proteinmixed,ac_标记序列对应的蛋白产物;

3)nc_***:genomicmixed,完整的基因组分子序列,标记的类别包括基因组、染色

体、细胞器、质粒;4)ng_***:genomicmixed,不完整的基因组区域,提供ncbi基因组

注释途径。比较

文档评论(0)

198****6960 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档