基于本体分布式生物数据集成.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体分布式生物数据集成

基于本体分布式生物数据集成摘要:本体具有很强的语义表达能力,这为方便分布式异构生物数据集成提供了语义表达的基础。本文给出了一种基于混合本体的生物数据集成方法,通过构建局部本体、全局本体,建立本体与本体、本体与数据库之间的映射,整合异构生物数据库。 关键词:生物数据集成#8195;本体 各生物信息机构都不同程度的构建了生物信息系统,但由于生物信息系统建设的阶段性、技术性和一些人为的因素,导致相同的数据以不同的方式建模,在不同的软硬件下运行,形成了不同程度的异构,使得相互联系的系统之间不能交换和共享信息。信息集成技术就是为实现各个数据源之间信息的交流和共享而发展起来的,目标是屏蔽各底层数据源的异构性,提供给用户一个统一的数据视图,使用户和应用能够在单一的视图下完成多数据源的数据查询和使用工作,最终实现信息的共享。 生物信息系统的异构一般分为四种类型[1]:结构异构、语法异构、系统异构和语义异构。已经有许多技术被开发用来解决不同类型的异构问题,如CORBA、DCOM、联邦数据库及虚拟数据库等技术和方法的使用。尤其是XML作为公共的语言标准被广泛使用后,由于它所具有的通用的语法格式,使得数据源之间能够采用统一的数据模型交换信息,有效的解决了数据集成中数据交换的问题,但语义异构的问题仍未有效解决。 目前已经有许多基于本体的生物数据语义集成方法被提出。文献[2]提出用映射表来描述全局本体和局部本体中同等概念的映射关系,但它只能描述简单的一对一对应关系,对于需要转换后再关联的映射却无能为力。文献[3]提出用本体描述语言来描述全局本体和局部本体的映射,通过加入公理来解决需要转换的相同概念之间的映射,但这样加大了全局本体形成和维护的难度。本文针对生物数据的特征,给出了一种基于混合本体的数据集成方法,提出在全局本体和局部本体的映射中加入属性转换来解决语义冲突问题,达到了理想的效果,并且具有较好的可维护性和可扩展性。 本体最早是一个哲学概念,是对客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智能领域被普遍接受的是Studer所作出的定义“本体是共享概念模型的明确形式化规范说明”[4]。 本体用于数据集成系统的主要意义在于,它使本体作为一个中介或代理,让大量的异构的底层数据源对用户来说是透明的。即用户可以不知道数据源的结构,仅提交一个针对本体的查询,系统基于语义定义和映射关系,可以自动地将针对本体的查询重写为针对数据源的查询。这样,用户就可以仅仅提出需要什么数据,而不需要指出如何去发现数据。 在基于本体的生物数据集成的方法中,目前存在3种方法,即单本体方法、多本体方法和混合本体的方法[5]。 由于生物数据的异构性、多样性等特征,本系统使用混合本体的方法来完成多数据库的集成。其基本思想如下:通过生物数据库定义局部本体,映射数据库中的表和属性到本体中;通过本体与本体之间的映射,实现多数据库之间的交互;根据局部本体定义全局本体,为所有的本体提供一个统一的映射源,并为用户提供统一的访问方式。 本系统的关键在于构建本体和建立本体之间以及本体与数据库的映射。其中,本体的构建过程如下: 1)根据数据库定义局部本体。主要考虑局部本体中的表以、属性(表的列)、属性值(表中每一行的具体列值)来构建本体。由于生物学本体相对比较成熟,而且很多生物学数据库都是依据某一个本体或词汇表构建,所以,构建局部本体的过程可以参考具体的生物学本体。 2)通过局部本体构建全局本体。由于局部本体所使用的生物学本体或词汇表各不相同,所以,需要集中所有的局部本体,考虑局部本体之间词汇的关系,来建立全局本体。 由于生物本体数据之间的关系相对简单,主要使用本体中的“is-a”关系,考虑本系统的目标主要是完成分布式数据的查询,所以本系统中本体的关系仅仅使用“is-a”关系。 本系统中本体的映射包括全局本体与局部本体的映射以及局部本体和数据库之间的映射,其中,全局本体和局部本体之间的映射主要使用目前比较成熟的本体匹配算法。下面主要介绍建立局部本体和数据库之间的映射。 1)通过建立属性与局部本体的映射建立数据库和局部本体的映射 如图1所示,它表示数据库表的属性和局部本体的映射关系。例如:sp和Organism映射,表示sp is-a Organism,同时,sp是所有Organism父类的实例。 2)通过建立表名与本体的映射建立数据库和局部本体的映射 使用和上面相似的方法,实现表名和本体的映射。如图2所示,它表示数据库表名和本体的映射关系。由于表所表示的内容可能无法用一个本体概念进行描述,所以,表名通常会映射到多个本体概念中。例如:ename同时和Mouse及Enzyme映射,表示en

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档