- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体学习自动化本体构建探讨
基于本体学习自动化本体构建探讨
摘要:通过本体学习来构建本体库是有效解决人工构建本体繁杂、容易出错的有效途径,文章分析了自动化本体构建技术的3种方法,对实践具有借鉴意义。
关键词:本体学习;自动化;本体构建
一、本体的定义
本体一词来源于哲学,它指的是一种存在的系统解释。近年来,在计算机科学中关于本体的研究越来越多。在人工智能界,Ontology被定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。在信息系统、知识系统等领域,最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。W.N.Borst对该定义进行了引申“本体是共享的概念模型的形式化的规范说明”。Fensel对这个定义进行分析后认为Ontology的概念包括4个主要方面:
概念化(conceptualization):客观世界的现象的抽象模型。
明确(explicit):概念及它们之间联系都被精确定义。
形式化(formal):精确的数学描述。
共享(share):本体中反映的知识是其使用者共同认可的。
目前,关于本体的公认的定义是Gruber在1994年提出的:“本体是关于领域共享概念的一致的形式化说明”。这个定义包含3层含义:
共享概念包括用来对领域知识进行建模的概念框架、需要互操作的主体之间用于交互的与内容相关的协议以及用于表示特定领域的理论的共同约定等。
本体必须是一致的,即本体概念和关系不能出现逻辑上矛盾的陈述或推理上的逻辑矛盾。
本体的描述是形式化的,支持对领域概念和关系的推理。
二、基于本体学习的自动或半自动本体构建方法
由于人工的方法费时费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。
国外在该方向的研究很活跃,把相关的技术称为本体学习技术(Ontology Learning),其目标是利用机器学习和统计等技术自动或半自动的从已有数据资源中获取渴望的本体。根据源数据结构化程度,可以将本体学习技术分为以下???别:
(一)基于结构化数据的本体学习
结构化数据主要是包括关系数据库或面向对象数据库中的数据。现在的应用大多采用关系数据库来组织和存储数据。但是关系模型有一个致命弱点,即它不能用一张表模型表示出复杂对象的语义。
基于结构化数据的本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映像到本体中的相应部分。
从数据库中抽取本体,一般的做法是:利用数据库的逆向工程或映射技术将关系模型转换为一种中间模型,然后将该中间模型转换成本体。
例如,Johannesson提出了将关系模型转换成一个概念模型,该概念模型实际上是扩展的实体――关系模型的形式化表示,然后由用户对该概念模型进行修订生成最终的本体。
Rubin等人提出了一种使用关系数据库中的数据来丰富指定本体中的实例,并自动获取这些实例在相应属性上值的方法。Stojanovic等人使用映射技术将关系数据库模式映射为本体。通过考察数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则,在根据这些规则的基础上能够直接获取候选本体。由于关系模式中蕴涵的语义十分有限,所以只适合构建轻量级的本体。Kashyap提出首先根据关系模式得到一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系。由于用户查询具有很大的随机性,所以很难保证结果的质量。Astrova通过对数据库中的元组的分析,得到了概念间的继承关系。
(二)基于非结构化数据的本体学习
非结构化数据是指没有固定结构的数据,例如纯文本、Web网页、Word文件和PDF文件等。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本中获取本体。由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出需要的知识,必须利用自然语言处理(Natural Language Process,NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识,重点是从文本抽取领域概念、实例,并发现概念之间的关系。
对于概念的获取,常用统计方法是计算概念在文本集中出现的频率,如果该频率大于指定的阀值,则将其作为领域本体中的概念。对于概念间关系的获取有基于模式,概念聚类,关联规则挖掘的方法。基于模式的方法需要判断文本中词的序列是否匹配某个模式,如果匹配,则可以识别出相应的关系。概念聚类的方法是利用概念之间的语义距离,对概念进行层次聚类,聚类的结果就是概念间的分类关系。关联规则挖掘的方法常用来获取概念间的非分类关系,其
文档评论(0)