- 36
- 0
- 约5.09万字
- 约 60页
- 2019-05-26 发布于上海
- 举报
万方数据
万方数据
Classified Index: TP391.2 U.D.C: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH ON NAMED ENTITY RECOGNITION AND RELATION EXTRACTION FACING TO DOMAIN-ORIENTED KNOWLEDGE BASE CONSTRUCTION
Candidate: Cheng Ziguang
Supervisor: Prof. Li Sheng
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: School of Computer Science and Technology
Date of Defence: June, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
摘
摘 要
摘 要
任何一个信息处理系统都离不开数据和知识库的支持,自然语言处理系统 尤其如此。人类理解自然语言需要积累大量必要的知识,计算机系统也是如此, 所以要构建自然语言处理系统就要为其建立一个高质量的知识库。通过构建领 域信息系统提供信息保障和智能化的决策支持,获取信息优势从而形成决策优 势最终转化为领域优势。所以对于现代领域智能信息处理系统,构建领域知识 库意义重大。因此,需要获取专业领域知识,构建特定领域的知识库,为自然 语言处理系统“理解”特定领域的问题并顺利完成任务提供知识保障。现有的 知识库多是通用领域知识库,对于一些特定领域的自然语言处理系统需要的更 多是特定领域的知识。构建知识库的关键在于知识获取,知识获取方法多样主 要在于知识源的选择。对于网络知识源知识获取有两项基本的任务:命名实体 识别和实体关系抽取。本文将从面向特定领域知识库的角度进行这两个方面的 研究。
本文中的具体研究内容涉及以下几个方面: (1)本文研究了一种基于多模式融合的半监督命名实体识别方法,该方法融
合了原有的利用 Bootstrapping 方法的命名实体识别方法和利用内模式的命名实 体识别方法。针对特定领域实体将两种方法融合,F 值提高了 14%。
(2) 研究了基于中文百科的领域实体属性知识库构建方法。从面向领域的知 识库构建角度从维基百科中抽取相关领域知识的语料库。并利用维基百科的 Inforbox 构建领域知识库。利用知识库自动标注获取的领域语料库,制定标注
规范并人工标注一部分语料。在人工标注语料上平均自动标注,自动标注在两
个类别的 F 值分别达到 71.45%和 75.86%。
(3) 利用构建好的语料库,分析实体属性抽取相关特性。针对实体属性关系 抽取任务,进行特征提取。训练了最大熵和支持向量机这两种模型的有监督实 体属性关系抽取分类器。利用人工标注的语料进行测试,给出相应实验结果和 结果分析。
关键词:领域知识库构建;命名实体识别;实体属性关系抽取;中文百科;有 指导学习
- I -
Ab
Abstract
ABSTRACT
Any information processing system is inseparable from the support of data and knowledge base, especially natural language processing system. As humans, we need to accumulate a large number of the necessary knowledge to understand the natural language, so does a computer system. So a high quality knowledge base is a necessity for a natural language processing system. Although there are several different choices for the task of knowledge extraction considering of the technical detail and reliability, it generally includes two common and closely related subtasks: named entity recognition and
您可能关注的文档
- 抗氧化剂对冷冻人颗粒脂肪组织的保护作用-临床医学(外科学)专业毕业论文.docx
- 面向自主创新的企业技术战略作用机理及决策研究-技术经济及管理专业毕业论文.docx
- 绵果荠、卷果涩荠CBF基因的克隆及分析-生物化学与分子生物学专业毕业论文.docx
- 美国PBL教学模式及在我国高校研究生教学中的应用研究-比较教育学专业毕业论文.docx
- 煤矿瓦斯智能传感器的应用研究-控制理论与控制工程专业毕业论文.docx
- 枯草芽孢杆菌胞苷生产菌株的构建-生物化学与分子生物学专业毕业论文.docx
- 面向服务的系统可视化开发系统的研究与实现-计算机软件与理论专业毕业论文.docx
- 煤矸石应用于道路底基层的路用性能试验研究-道路与铁道工程专业毕业论文.docx
- 洛阳汉画像砖艺术分析-考古学专业毕业论文.docx
- 抗抑菌洗涤剂的研究与制备-化学工程专业毕业论文.docx
- 初中九年级英语Unit 13环境保护主题听说整合教学设计.docx
- 85分式方程及其解法课件人教版数学八年级上册.pptx
- 基于核心素养的博物馆主题说明文写作教学设计与实施——以九年级英语为例.docx
- 53一次函数的意义第课时课件浙教版八年级数学上册.pptx
- 大单元视角下“人民民主政权的巩固”与历史关键能力进阶教学设计——以初中历史中考复习课为例.docx
- 五年级数学下册典型例题解析人教版期末重点攻克.pptx
- 小学四年级信息技术《智启信息时代:查找网上信息的基石》教学设计及反思.docx
- 大疆域·大人口·大战略:中国国家空间认知的初步建构.docx
- 人教版(一年级起点)小学英语四年级上册Revision 1 Lesson 2教学设计.docx
- 大单元结构化复习:旧民主主义革命时期(18401919)的内忧外患与救亡图存.docx
原创力文档

文档评论(0)