- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
NCBI简介及序列编号说明
一:ncbi简介
ncbi的genbank与ddbj(dnadatabankofjapan)、embl的ebi数据库共同组成国际
dna数据库,每日都交换更新数据和信息,并主持两个国际年会-国际dna数据库咨询会
议和国际dna数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。
genbank存有源自于70,000多种生物的核苷酸序列。每条纪录都存有编码区(cds)
特征的注解,还包括氨基酸的译者。(就是美国国家生物技术信息中心
(nationalcenterforbiotechnologyinformation,ncbi)创建的dna序列数据
库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测
序计划(benson等,1998)。entrez是美国国家生物技术信息中心所提供的在线资源检索
器。该资源将genbank序列与其原始文献出处链接在一起。entrez是由ncbi主持的一个
数据库检索系统。它包括核酸,蛋白以及medline文摘数据库,在这三个数据库中建立了
非常完善的联系。因此,可以从一个dna序列查询到蛋白产物以及相关文献,而且,每个
条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。)
ddbj主要向研究者搜集dna序列信息并剥夺其数据读取号,信息来源主要就是日本的
研究机构,亦拒绝接受其他国家递交国书的序列。
ebi的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息
服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续
推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端
科技成果向工业界的转化;⑸协调欧洲生物数据的提供。
refseq就是ncbi数据库的参照序列。refseq资料库就是ncbi将genbank的序列再
搞详尽整理的non-redundent序列资料库,它的序列格式和genbank几乎完全相同,但因
为就是全然相同的单一制资料库,为与genbank区别,refseq的accessionnumber格式和
genbank相同。
二:常用序列编号
一般来说,mrna和基因组序列就是我们主要的找寻对象。如果想要打听标准序列的话,
mrna用nm_结尾的,基因组用nc_或者ac_结尾的。1.mrna
nm_表示标准序列,为转录产物序列;成熟mrna转录本序列。
xm_则表示预测的蛋白编码序列;mrna源自基因组注解,序列相等于基因组重叠群。
大多数属预测的。nr_则表示非编码的mRNA子序列,包含结构rnas,假基因转子等。2.基
因组
nc_完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。ac_一
些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。
三:accession编号
accession是ncbi序列数据中我们常用到编号(另一个是gi)。accession形式为
cc_#####,其中cc为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组
序列,而#为位数不等的数字;accession后面又会加版本号,以cc_####.#形式表示,最
后的尾数递增表示序列信息较之前的版本有所修改。这样accession+版本号就是一个唯一
的表示,代表一个唯一的序列,而且这个编号不会改变。
1)ac_***:genomicmixed,一些可以供选择的注解的基因组序列,主要用以标记病
毒和原核生物;2)ap_***:proteinmixed,ac_标记序列对应的蛋白产物;
3)nc_***:genomicmixed,完整的基因组分子序列,标记的类别包括基因组、染色
体、细胞器、质粒;4)ng_***:genomicmixed,不完整的基因组区域,提供ncbi基因组
注释途径。比较
您可能关注的文档
- 《卖火柴的小女孩》第一课时教学设计.pdf
- “马克思主义基本原理概论”课专题教学的基本思路.pdf
- [必刷题]2024九年级语文下册文学名著阅读专项专题训练(含答案).pdf
- XX区区属国有企业公务用车管理实施办法(试行).pdf
- Unit5HumansandNatureLesson1Aseastory教学设计高中英语北师大版.pdf
- Unit+3导学案+2023-2024学年人教版七年级英语上册.pdf
- s管理知识培训 初级管理知识培训心得体会(模板9篇).pdf
- riemann-liouvile}型分数阶微积分.pdf
- obe教育理念 教学大纲修订.pdf
- Module 单元教学设计 外研版八年级英语上册.pdf
文档评论(0)