- 9
- 0
- 约 19页
- 2016-11-07 发布于江苏
- 举报
第六章 NCBI数据模型
前言 数据模型
什么是数据模型
生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。
八年前,NCBI介绍了一种新的序列相关信息模型。这种新模型使基于Entrez系统的完整数据库GenBank的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第5章)。该模型的优点对生物学家使用Entrez有很大的帮助。但是很少有生物学家了解该模型的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引及NCBI模型所起的作用。
模型的一些例子
GenBank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。限定符/translation=MLLYY描述了将CDS特征翻译成的氨基酸顺序。其它的DNA特征(例如mat-肽)有时被GenBank数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。
NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。这样,用BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被称为核酸—蛋白质组,它是NCBI为使用这些数据的中间数据。GenBank数据格式只是人类可读的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为中心的视角)。Entrez的目标是更直接的反映数据的低层结构。由BLAST实现的从GenBank到蛋白质序列的翻译实际上是从蛋白质—核酸组得到蛋白质序列。
Part A:
LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2.
ACCESSION U17993
NID g727256
KEYWORDS .
SEGMENT 1 of 3
…
LOCUS RNKOR2 658bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3.
ACCESSION U17994
NID g727257
KEYWORDS .
SEGMENT 2 of 3
…
LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and complete cds.
ACCESSION U17995
NID g727258
KEYWORDS .
SEGMENT 3 of 3
Part B:
LOCUS RNKOR 6463bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene.
ACCESSION ZZ123456
NID g2182225
KEYWORDS .
SOURCE Norway rat.
ORGANISM Rattus norvegicus
Eukauyotae; mitochondrial eukaryotes; Metazoa; Chordata;
Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae;
Murinae; Rattus.
REFERENCE 1 (base
您可能关注的文档
- 课内生物化学实验论文.doc
- 课内生物教学论作业.doc
- 课内食品分析汇总88981.doc
- 课内生物化学第6次.doc
- 课内实变函数与泛函分析课程教学大纲.doc
- 课内生物化学47767.doc
- 课内生物化学重点.doc
- 课内生物技术专业英语单词检索.doc
- 课内生物技术毕业论文.doc
- 课内生物化学49944.doc
- 2026年一机多屏显示系统项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年蚕丝靠垫被项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年精密端面研磨机项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年二氟苯酮项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年丙二腈项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年吹火管项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年吸收器项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年防雷金具项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年病理细胞分析系统项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年绣花匹头项目可行性研究报告(市场数据调查、监测研究).docx
最近下载
- 厦门市同安区事业单位招聘考试题目及答案2025.docx VIP
- 公示A646-0059宗地光明新区观光站综合体项目pdf - 重庆市环境保护.PDF
- 草坪学 全套课件.ppt VIP
- 物理-河南普通高中青桐鸣大联考2024-2025学年2025届高三年级上学期1月期末考试试题和答案.docx VIP
- 弱电工程入侵报警系统(含紧急求助)设计方案全.docx VIP
- 《化学催化催化剂》课件.ppt VIP
- 金相检验二级试题.pdf VIP
- 未遂事故管理制度.docx VIP
- 安徽医科大学2021年春季学期护理专业《健康评估》期末考试试卷.docx VIP
- NB_T 20436-2017压水堆核电厂水化学控制.pdf
原创力文档

文档评论(0)