网站大量收购独家精品文档,联系QQ:2885784924

基于多策略的领域本体术语抽取研究.doc

基于多策略的领域本体术语抽取研究.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多策略的领域本体术语抽取研究

基于多策略的领域本体术语抽取研究* 何 琳 (南京农业大学信息管理系 210095) 摘 要 术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析。实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果。 关键词 术语抽取 多策略 术语分布度 术语活跃度 术语主题度 Abstract: Terminology extraction is one of the most important basic prepare work for ontology construction, which assured the qualification of ontologies for building. The acknowledged terminology should not only have high recognized precision, but also have high termhood in the domain. This paper tried to find a method for terminology extraction not relied on background corpus supported. Our work focused on two aspects, one is discussing a phrase recognized approach based on statistical and Chinese grammar rule, and the other is that we proposed an approach for termhood calculation of candidate terminology which synthesized three factors of distribution degree, activity degree and subject degree. Experiment on testing corpus shows that our method can have good result in terms of precision and recal1. Keywords: Terminology Extraction, Integrated Strategy, Distribution Degree, Activity Degree, Subject Degree 1 引言 领域术语是在特定领域内具有语义的词或短语的集合。从某种意义上讲,领域术语是领域知识在文本中的外在表现。领域术语的获取就是从领域文本集合中抽取最能够代表该领域的概念集合,这个过程包括从领域文本中抽取候选术语集合、词性规范(同义词处理)以及领域术语的筛选和确定。术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度,也就是该领域的核心概念,而非通用意义上的短语。以往的术语抽取研究更多的是关注术语的外在形式(短语)获取的准确率,对于术语的领域度研究,主要集中于利用领域语料和背景语料进行对比分析。然而背景语料库的构建受到诸多因素的影响。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析。 2 相关研究概述 术语抽取包含术语外部形式获取(也即词或词组形式的获取)以及术语领域度的计算(是否为该领域的特有概念)。有的研究将两个步骤分开计算,也有的研究将二者合二为一进行筛选。其中,术语外部形势获取的研究比较多,有基于语言学、统计学以及二者混合的方法。而术语领域度计算的研究目前研究相对比较少,方法比较单一。 2.1 术语外在形式的获取 (1)语言学方法 利用语言学的知识模式识别语料中的术语,包括词性及浅层语法分析,具有较高的准确率[1-2]。但是有限的语言规则并不能概括所有的术语组成规律,而且在不同专业领域、不同语种内,术语的构成规律都有差异,因此,单

文档评论(0)

wuyuetian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档