国内图书分TP391.2国际图书分类号681.324密级.PDF

国内图书分TP391.2国际图书分类号681.324密级.PDF

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
国内图书分TP391.2国际图书分类号681.324密级

国内图书分类号:TP391.2 学校代码:10213 国际图书分类号:681.324 密级:公开 工工工学学学博博博士士士学学学位位位论论论文文文 开放域命名实体识别及其层次化类别获取 博士 研 究 生:付 瑞 吉 导 师:刘 挺 教 授 申 请 学 位:工学博士 学 科:计算机科学与技术 所 在 单 位:计算机科学与技术学 院 答 辩 日 期:2014年7月 授予学位单位:哈尔滨工业大学 Classified Index: TP391.2 U.D.C: 681.324 Dissertation for the Doctoral Degree in Engineering OPEN-DOMAIN NAMED ENTITY RECOGNITION AND HIERARCHICAL CATEGORY ACQUISITION Candidate: Ruiji Fu Supervisor: Professor Ting Liu Academic Degree Applied for: Doctor of Engineering Specialty: Computer Science and Technology Aliation: School of Computer Science and Technology Date of Defence: July, 2014 Degree-Conferring-Institution: Harbin Institute of Technology 摘 要 摘 要 命名实体识别的目标是识别文本中事物 的名称并分类。 统命名实体识别 任务主要识别人名、地名和机构名等。但由于 统命名实体的类别有限,不能 完全满足自然语 言处理领域其他任务的需求。因此本文重点研究开放域命名实 体的识别和层次化类别获取,旨在为信息抽取、信息检索、开放域问答、机器 翻译等自然语 言处理任务提供支持。 开放域命名实体相对 统命名实体有两个主要特 点:类别更多且不固定; 类别更细且有层次。这导致开放域命名实体的识别面临无法标注训练语料、同 一个命名实体属于多个不同粒度的类别等挑战,无法应用 统 的序列标注的方 法来解 决。本文将开放域命名实体识别任务分为两个方面:边界识别和类别获 取。边界识别面临的主要 问题是训练语料 的构建以及有效利用。类别获取面临 的主要 问题是类别体系不可预先确定 以及类别的层次化。本文 的研究工作旨在 解决上述两个问题,主要研究内容包括以下四个方面: 第一部分为基于英汉双语平行语料 自动构建汉语命名实体识别语料 。命名 实体识别训练语料不足会导致 的领域过拟合问题,而人工标注的成本太高,本 文使用双语平行语料将英语命名实体自动识别的标记 射到汉语端,从而实现 汉语命名实体语料 的 自动标注。然后进一步使用多种策略综合筛选高质量 的实 例作为训练语料 。实验证 明这种方法可以自动构建大量 的汉语命名实体识别训 练语料,在该语料上训练 的模 型与人工标注语料上训练 的模 型性能接近,并且 通过和人工标注的语料 融合可以提高命名实体识别的准确率和召回率。此 外, 我们还详细分析了平行语料规模和来源对命名实体识别效果的影响。 第二部分为基于

文档评论(0)

ldj215323 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档