语言学特征在中文命名实体间语义关系抽取中的应用分析-application analysis of linguistic features in semantic relation extraction between chinese named entities.docxVIP

  • 16
  • 0
  • 约5.56万字
  • 约 67页
  • 2018-06-05 发布于上海
  • 举报

语言学特征在中文命名实体间语义关系抽取中的应用分析-application analysis of linguistic features in semantic relation extraction between chinese named entities.docx

语言学特征在中文命名实体间语义关系抽取中的应用分析-application analysis of linguistic features in semantic relation extraction between chinese named entities

些信息收集在一起,用结构化形式储存,那将是有益的。由于网上的信息载体主要是文本,所以信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。 信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功 的信息抽取系统将把互联网变成巨大的数据库。实体识别通过实体抽取技术抽取各个知识要素。抽取出的知识要素以离散的形式 存在,只能反映出文本中包含哪些实体,例如人、机构、地点等,却不能反映出知识 要素之间的关系,例如机构与人之间的雇用关系、机构与地点之间的位置关系等,而 关系抽取则是要解决这一难题。在大多数的信息抽取系统中,不但要识别文本中的实 体,而且还要根据上下文确定和抽取这些实体之间的各种语义关系,即关系抽取。例 如:南非总统祖马。实体“南非”和实体“祖马”之间存在雇佣关系。实体间语义关 系的抽取不仅是信息抽取中的重要环节,而且在信息检索、问答系统、知识获取和自 然语言接口等应用中也非常重要。目前语义关系抽取的研究方法主要有基于知识库的方法和基于统计的机器学习 方法。基于知识库的方法需要专家构建大规模的知识库,费时、费力且移植性差。基 于统计的机器学习的方法只需要利用标注好的语料库进行训练得到模型,然后运用到 未标注文本上,无需太多领域知识,系统移植性也大大提高。当前研究趋势已经越来 越多的倾向于使用基于统计的机器学习方法进行关系抽取研究。机器学习方法根据训 练过程中人工干预的多少又分为:有指导学习方法、无指导学习方法和弱指导学习方 法。在有指导学习方法中,首先需要构造具有一定表达形式的训练数据,然后使用各 种指导性机器学习算法进行训练,如支持向量机(SVM)、Winnow 等分类器,最后 使用训练得到的模型对测试数据进行分类。这种方法的优点是能够取得较高性能,缺 点是需要大量的人工标注的语料库。无指导学习方法不需要事先定义关系类别和人工 标注数据、不需要人工指导或干预,但是性能较低、无法确定实例所属类别。弱指导 学习方法是首先采用种子集和种子模板来初始化一个学习器,然后学习器通过自动学 习训练语料来扩展新的知识,在增加新的知识基础之上,又可以进行新的一轮自动学 习训练语料来扩展更多的新的知识,如此循环操作,直到达到某个终止条件为止。这 种方法只需少量的标注数据、减轻了对大规模标注语料库的依赖,但是与指导性学习 方法相比性能较低。1.2 研究意义信息抽取的宗旨在于抽取指定的信息,它突破了信息检索中必须由人来阅读、理 解、抽取信息的局限性,实现了信息的自动查找、理解和抽取。信息抽取可以进一步 精化信息检索的结果。信息抽取的每一个模块都可以作为输出应用。首先,它可以应用于传统的信息检索系统之中,在信息检索之后对相关的文本进 行指定信息的抽取,使单纯的信息查找过程进一步变成信息匹配(理解)过程,从而 把传统的信息检索系统变成智能系统,以用户更满意的方式输出信息。例如,大型联 机检索系统、图书情报检索系统、Intemet 网页搜索引擎等,都可以通过引进信息抽 取技术来进行改进,或把信息抽取作为辅助功能供用户选用。其次,信息抽取技术也可以集成到一些数据库应用系统(例如产品介绍信息、公 司机构名录、分类广告信息、光盘图书报刊阅读等应用系统)中,作为由非结构化的 文本自动生成结构化数据的前端工具,使用户能够快速方便地抽取某类指定信息。1.3 本文的研究内容本文采用基于语言学特征的方法来解决语义关系抽取的问题。 首先设计了一系列的基本语言学特征,主要包括实体词及其上下文特征、实体类型特征、实体参照信息特征、实体交叠信息特征、基本短语块特征等。然后在此基础上,提出了特征组合的方法,分别将这些基本特征进行组合,如基 本实体词组合特征、实体类型组合特征、实体参照信息组合特征、基本短语块组合特 征等。最后使用基于特征向量的 SVM 分类器进行语义关系的抽取。在 ACE RDC 2005 中文基准语料库上的实验结果显示,应用本文方法的关系探测 和关系大类抽取任务的 F 值分别达到了 60.81 和 56.64。这表明语言学特征及其组合 特征在中文语义关系的抽取中取得了一个较合理的结果。同时,本文还研究了各种特 征对关系抽取的贡献差别,结果表明词汇特征和实体类型特征对中文语义关系抽取的 作用最大。1.4 本文的组织结构本文共分五个章节,论文结构和各章节的主要内容如下: 第一章为绪论。这一章对本课题从总体上进行了介绍,包括研究背景、研究意义,并据此引出本文的研究内容。 第二章为相关工作。这一章首先介绍了信息抽取技术的概念、发展历史,信息抽取系统的体系结构、评测标准、关键技术;接着介绍了语义关系抽取的任务、三类主 要的语义关系抽取方法、中文实体间语义关系抽取研究现状;介绍了 ACE 信息抽取 任务,ACE 语料库实体大类及其子类、关系大

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档