- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Gene Ontology(GO)简介与使用介绍
Gene Ontology(GO)简介与使用介绍
1.GO 怎么就出现了?
现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光
是精确的计算机难以搜寻到这些随时间和人为多重因 素而随机改变的定义,即使是完全由人手动处理也无法完成。举
个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相 关的基因产物,
特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为
“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。
Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是
由 1988 年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库 Drosophila),t Saccharomyces Genome
Database (酵母基因组数据库 SGD) and the Mouse Genome Database (小鼠基因组数据库 MGD)。从那开始,GO
不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。
GO 的定义法则已经在多个合作的数据库中使用 ,这使在这些数据库中的查询具有极高的一致性。这种定义语言具
有多重结构,因此在各种程度上都能进行查询。举 例来说,GO 可以被用来在小鼠基因组中查询和信号转导相关的基因
产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产 物特性的认识。
2.GO 的发展和组织形式
GO 发展了具有三级结构的标准语言(ontologies ),根据基因产物的相关分子功能,生物学途径,细胞学组件而
给予定义,无物种相关性。三种本体论的内容如下:
1 )分子功能本体论基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活性等
2 )生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等
3 )细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等
基本来说,GO 工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、
基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。
3.GO 的形式
GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制定义方式
(随着代数增加,下一级比上一级更为具体)。举个例子来说,生物学途径中有一个定义是己糖合成,它的上一级为
己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在
GO 中,每个术语必须遵循“真途径 “法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适
用。
4.GO 的注释(Annotation )
那么,GO 中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用 GO 的定
义方法,对它们所包含的基因产物进行注解,并且 提供支持这种注解的参考和证据。每个基因或基因产物都会有一个
列表,列出与之相关的 GO 术语。每个数据库都会给出这些基因产物和 GO 术语的联系数据库,并 且也可以在 GO 的
ftp 站点上和 WEB 方式查询到。
而且,GO 联合会提供了简化的本体论术语(GO slim ),这样,可以在更高级的层面上研究基因组的功能。比
如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。
GO 对基因和蛋白的注释阐明了基因产物和用于定义他们的 GO 术语之间的关系。基因产物指一个基因编码的
RNA 或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO 推荐的注释是针对基因产物的而不
是基因的。一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功
能,生物途径,定位等,而并不包括其在突变或病理状 态下的情况。GO 联合会的各个数据库成员采用手动或自动的方
式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库 或是计算机分析结
果;二.注释必须提供支持这种基因产物和 GO 术语之间联系的证据。
5.GO 文件格式
GO 的所
文档评论(0)