面向文本领域本体学习方法与应用研究综述.doc

面向文本领域本体学习方法与应用研究综述.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向文本的领域本体学习方法与应用研究综述 [摘要]根据本体构成的要素——概念、概念间关系、公理,结合文本的非结构化特点,总结梳理当前从文本中自动获取领域本体概念及概念间关系的主要方法的思路、特征和适用范围,并运用两个实例解析面向文本的领域本体学习的具体步骤和实现过程。最后讨论存在的主要问题和进一步的研究方向。 [关键词]领域本体 本体学习 文本 概念 关系 本体的本质是概念模型,通过概念模型对信息作完全的形式化描述。它描述某个领域甚至更广范围内的概念及概念之间的关系,使得这些概念和关系在共享的范围内具有大家认可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。领域本体用于描述特定专业领域,定义该领域的概念和概念之间的关系,描述该领域的基本原理、主要实体和主要活动,提供领域内部知识共享和知识重用的公共理解基础。 近年来,随着语义网运动的发展,作为基础性工作的一部分,实现自动或半自动构建本体逐渐成为一个研究热点,而用来实现本体元素自动获取的一系列方法和技术称为本体学习。 按照数据源的结构化程度,本体学习技术分为三大类:基于结构化数据的本体学习技术、基于半结构化数据的本体学习技术和基于非结构化数据的本体学习技术。数据库中的数据是典型的结构化数据,而xml、html、dtd等包含隐含结构的数据称为半结构化数据。非结构化数据是指没有固定结构的数据。文本数据是非结构化数据,大量存在于web中,是用来构建本体的最重要的数据源。因为现有的研究方法在处理半结构化数据时,通常按照纯文本对待,所以一般将基于非结构化数据的本体学习和基于半结构化数据的本体学习统称为面向文本的本体学习。 本文将概念、概念间关系视为本体的构成要素,对比分析相关的面向文本的本体学习的一系列方法和技术,并结合实例阐明领域本体学习的步骤与方法,进而讨论当前领域本体学习技术存在的主要问题和进一步的研究方向,为构建领域本体理清思路。 1 面向文本的领域本体学习 根据本体的定义和结构,本体学习的任务可分为三部分:①概念的自动获取;②概念间关系的自动获取;③公理的自动获取。现有研究主要集中于概念和关系的获取,公理的获取研究较少,所以本文着重讨论前两者。 首先,自然语言处理技术(nature language process-ing,nlp)是面向文本的本体学习的基础,这是因为文本数据缺乏一定的结构,要使机器能够自动地理解文本并从中抽取出所需要的知识,则必须利用自然语言处理技术,如词性标注、词义消歧和短语切分等技术对其预处理;然后,在此基础上,利用基于统计、基于规则或机器学习等方法从中获取知识。 1.1概念获取方法 领域概念是领域知识在文本中的外在表现,是在特定领域内具有语义的词或短语的集合。领域概念的获取就是从领域文本集合中抽取最能够代表该领域概念的概念集合,这个过程包括从领域文本中抽取术语集合、词性规范以及领域概念的筛选和确定。 1.1.1基于词典的方法 专业词典和叙词表等经过领域专家多年的有序组织,涵盖了学科领域内的表达事物相关概念的大量词汇。同理,也可以利用停用词表识别无用的常用词。以此为依据,从文本中抽取领域概念或过滤无用词汇,准确高效、简单易行,国内外有很多成功的实践,但叙词表和词典的维护及更新比较缓慢,词汇覆盖面有限,所以经常作为一种基础性方法获取基本概念,需要进一步结合其它方法进行扩充。 1.1.2规则方法 基于规则的方法是指利用人工总结的语法规则、词法规则、语义规则等获取概念。例如,可以使用标注工具对文本进行词性标注,按照词语的形态特征从语料中提取术语。该方法实现比较简单,如果制定的规则完备、合理,则能达到一个比较高的准确率。但是,规则的编写需要具有语言知识和语言学背景的人员,人力资源昂贵,并且规则的制订往往要依赖于具体的语言、领域和文本格式,系统缺乏适应性,不易移植。 1.1.3统计方法 基于统计的方法是近年来常用的方法之一,它利用一些简单的统计量来衡量几个连续字符组成词的可能性。常见的简单统计量有词频、互信息、熵和c-value等。通过计算领域相关度和领域一致度等方法,对候选术语集进行过滤,获取真正的领域概念。基于统计的方法的缺点是容易产生数据稀疏现象,一般适合于输入数据不再改变的系统,即非增加的本体学习系统。 1.1.4机器学习的方法 机器学习的方法需要首先建立一个学习模型以模拟一个特定的任务,然后在已标注的训练集上应用学习算法,在得到一个推广性能最好的学习模型之后,即可从文本中抽取概念。 基于机器学习的方法是目前一种较为有效的概念获取方法,不再依赖于领域专家,只需要有一定专业知识的人对语料进行人工标注,而且能够将概念获取问题转换成丰富的机器学习算法所能解决的问题,但是机器学习的方法会产生噪音数据,影响结果可信度。 1.2概念关系获取方法 不同的组

文档评论(0)

nnh91 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档