- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
国内图书分TP391.2国际图书分类号681.324密级
国内图书分类号:TP391.2 学校代码:10213
国际图书分类号:681.324 密级:公开
工工工学学学博博博士士士学学学位位位论论论文文文
开放域命名实体识别及其层次化类别获取
博士 研 究 生:付 瑞 吉
导 师:刘 挺 教 授
申 请 学 位:工学博士
学 科:计算机科学与技术
所 在 单 位:计算机科学与技术学 院
答 辩 日 期:2014年7月
授予学位单位:哈尔滨工业大学
Classified Index: TP391.2
U.D.C: 681.324
Dissertation for the Doctoral Degree in Engineering
OPEN-DOMAIN NAMED ENTITY
RECOGNITION AND HIERARCHICAL
CATEGORY ACQUISITION
Candidate: Ruiji Fu
Supervisor: Professor Ting Liu
Academic Degree Applied for: Doctor of Engineering
Specialty: Computer Science and Technology
Aliation: School of Computer Science and Technology
Date of Defence: July, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
摘 要
摘 要
命名实体识别的目标是识别文本中事物 的名称并分类。 统命名实体识别
任务主要识别人名、地名和机构名等。但由于 统命名实体的类别有限,不能
完全满足自然语 言处理领域其他任务的需求。因此本文重点研究开放域命名实
体的识别和层次化类别获取,旨在为信息抽取、信息检索、开放域问答、机器
翻译等自然语 言处理任务提供支持。
开放域命名实体相对 统命名实体有两个主要特 点:类别更多且不固定;
类别更细且有层次。这导致开放域命名实体的识别面临无法标注训练语料、同
一个命名实体属于多个不同粒度的类别等挑战,无法应用 统 的序列标注的方
法来解 决。本文将开放域命名实体识别任务分为两个方面:边界识别和类别获
取。边界识别面临的主要 问题是训练语料 的构建以及有效利用。类别获取面临
的主要 问题是类别体系不可预先确定 以及类别的层次化。本文 的研究工作旨在
解决上述两个问题,主要研究内容包括以下四个方面:
第一部分为基于英汉双语平行语料 自动构建汉语命名实体识别语料 。命名
实体识别训练语料不足会导致 的领域过拟合问题,而人工标注的成本太高,本
文使用双语平行语料将英语命名实体自动识别的标记 射到汉语端,从而实现
汉语命名实体语料 的 自动标注。然后进一步使用多种策略综合筛选高质量 的实
例作为训练语料 。实验证 明这种方法可以自动构建大量 的汉语命名实体识别训
练语料,在该语料上训练 的模 型与人工标注语料上训练 的模 型性能接近,并且
通过和人工标注的语料 融合可以提高命名实体识别的准确率和召回率。此 外,
我们还详细分析了平行语料规模和来源对命名实体识别效果的影响。
第二部分为基于
您可能关注的文档
最近下载
- 统编版高中语文选择性必修上中下册:文言文选择题专练60题 (含答案解析).pdf VIP
- 电力行业职业礼仪规范培训.pptx VIP
- 人工智能在药物研发中的突破性应用.ppt VIP
- 投资公司与国企合资成立基金管理公司《出资(股东)协议书》及《公司章程》.docx VIP
- 新经典日语 第3册 第2課 日本人の配慮.pptx VIP
- 江盐集团盐品事业部2024年度招聘笔试备考试题及答案解析.docx VIP
- 网络安全技术与实训-课程标准.docx VIP
- 2024-2025学年高中语文必修 上册统编版(部编版)教学设计合集.docx
- 物流劳动合同简单版.docx VIP
- 第一单元 观察物体(课件)2025-2026学年度人教版数学三年级上册.pptx VIP
文档评论(0)