- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第二章:生物数据库(第一部分)
一级核酸数据库:GenBank 原核生物核酸序列(2)
容易混淆的就是 LOCUS,ACCESSION,VERSION和 GI。后面的都很好理解。
KEYWORDS提供能够大致描述该条目的几个关键词,可用于数据库搜索。
,
SOURCE 基因序列所属物种的俗名。他下面还有一个子条目,ORGANISM,是对所属
物种更详细的定义,包括他的科学分类。
REFERENCE是基因序列来源的科学文献。有时一条基因序列的不同片段可能来源于不
同的文献,那样的话,就会有很多个 REFERENCE条目出现。REFERENCE 的子条目包括文
献的作者、题目和刊物。刊物下面还包括 PubMed ID 作为其子条目。
COMMENT是自由撰写的内容,比如致谢,或者是无法归入前面几项的内容。
FEATURES是非常重要的注释内容,它描述了核酸序列中各个已确定的片段区域,包含
很多子条目,比如来源,启动子,核糖体结合位点等等。
source说明了核酸序列的来源,据此可以容易的分辨出这条序列是来源于克隆载体还
是基因组。可以看到,当前序列来源于大肠杆菌的基因组 DNA。
promoter 列出了启动子的位置。细菌有两个启动子区,-35 区和-10 区。-35 区位于第
286 个碱基到第 291 个碱基 ,-10 区位于第 310 个碱基到第 316 个碱基。
misc_feature 列出了一些杂项,比如,这条说明了从第 322 个碱基到第 324 个碱基
是一个推测的,但无实验证实的转录起始位置。
RBS是核糖体结合位点的位置。
CDS,Coding Segment,编码区。对于原核生物来讲,CDS记录了一个开放阅读框,从
第 343 个碱基开始的起始密码子 ATG 到第 798 个碱基结束的结束密码子 TAA。除了位置信
息,还包括翻译产物的诸多信息。翻译产物蛋白的名字是 dUTPase,这个编码区编码该蛋白
的第 1 到第 151 个氨基酸。翻译的起始位置和翻译所使用的密码本,以及计算机使用翻译密
码本根据核酸序列翻译出的蛋白质序列。需要强调的是,这不是生物自然翻译的,而是计算
机翻译的。事实上,蛋白质数据库中的大多数蛋白质序列都是根据核酸序列由计算机根据翻
译密码本自动翻译出来的。中间部分是翻译出的蛋白在各种蛋白质数据库中对应的检索号。
通过这些检索号可以轻松的链接到其他数据库。
此外,X01714 这条核酸序列还包含第二个“潜在的”基因,也就是计算机预测出来的
基因。它编码的蛋白目前的数据库里没有详细记录,是个未知的蛋白。像这样,一条核酸序
列包含多个基因的情况在 Genbank 里是很常见的。
ORIGIN作为最后一个条目记录的是核酸序列,并以双斜线作为整条记录的结束符。至
此整条记录就浏览完了。
有时你可能会想要保存这条序列,但是直接从这里拷贝,序列里既有空格,又有数字,
不是纯序列,手动删除这些又很麻烦。这时,你可以在这条记录的标题下面找到一个叫做
FASTA 的链接。点击他,你会获得 FASTA 格式的核酸序列。FASTA 格式是最常用的序列书
写格式,他由两部分组成,第一部分就是第一行,以大于号开始。大于号后面接序列的名称
或注释。第二部分就是第二行以后的纯序列部分,这部分只能写序列,不能有其他内容,比
如空格,注释,行号之类的都不能在序列部分出现。早期的 FASTA 格式要求序列部分每行
60 个字母。但这个规定早已被打破,每行 80,或每行 100,都可以。
标题下方,除了 FASTA 链接,还有一个图形化链接,点击可以看到 Features里的注
释信息以图形的形式更直观的展示出来。可以看到这条序列包含的两个基因,他们的启动子
的位置,核糖体结合位点的位置等。其中一条基因是编码 dUTPase 的 dut 基因,另一个是编
码未知蛋白的潜在的通过计算预测出的基因。
如果想要保存这条记录,最好的方法是像保存 PubMed 文献列表那样,点击发送链接,
然后选择以纯文本文件的形式保存整条记录到本地电脑上。
文档评论(0)