面向领域知识库构建的实体识别及关系抽取技术-计算机科学与技术专业毕业论文.docxVIP

  • 36
  • 0
  • 约5.09万字
  • 约 60页
  • 2019-05-26 发布于上海
  • 举报

面向领域知识库构建的实体识别及关系抽取技术-计算机科学与技术专业毕业论文.docx

万方数据 万方数据 Classified Index: TP391.2 U.D.C: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON NAMED ENTITY RECOGNITION AND RELATION EXTRACTION FACING TO DOMAIN-ORIENTED KNOWLEDGE BASE CONSTRUCTION Candidate: Cheng Ziguang Supervisor: Prof. Li Sheng Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2014 Degree-Conferring-Institution: Harbin Institute of Technology 摘 摘 要 摘 要 任何一个信息处理系统都离不开数据和知识库的支持,自然语言处理系统 尤其如此。人类理解自然语言需要积累大量必要的知识,计算机系统也是如此, 所以要构建自然语言处理系统就要为其建立一个高质量的知识库。通过构建领 域信息系统提供信息保障和智能化的决策支持,获取信息优势从而形成决策优 势最终转化为领域优势。所以对于现代领域智能信息处理系统,构建领域知识 库意义重大。因此,需要获取专业领域知识,构建特定领域的知识库,为自然 语言处理系统“理解”特定领域的问题并顺利完成任务提供知识保障。现有的 知识库多是通用领域知识库,对于一些特定领域的自然语言处理系统需要的更 多是特定领域的知识。构建知识库的关键在于知识获取,知识获取方法多样主 要在于知识源的选择。对于网络知识源知识获取有两项基本的任务:命名实体 识别和实体关系抽取。本文将从面向特定领域知识库的角度进行这两个方面的 研究。 本文中的具体研究内容涉及以下几个方面: (1)本文研究了一种基于多模式融合的半监督命名实体识别方法,该方法融 合了原有的利用 Bootstrapping 方法的命名实体识别方法和利用内模式的命名实 体识别方法。针对特定领域实体将两种方法融合,F 值提高了 14%。 (2) 研究了基于中文百科的领域实体属性知识库构建方法。从面向领域的知 识库构建角度从维基百科中抽取相关领域知识的语料库。并利用维基百科的 Inforbox 构建领域知识库。利用知识库自动标注获取的领域语料库,制定标注 规范并人工标注一部分语料。在人工标注语料上平均自动标注,自动标注在两 个类别的 F 值分别达到 71.45%和 75.86%。 (3) 利用构建好的语料库,分析实体属性抽取相关特性。针对实体属性关系 抽取任务,进行特征提取。训练了最大熵和支持向量机这两种模型的有监督实 体属性关系抽取分类器。利用人工标注的语料进行测试,给出相应实验结果和 结果分析。 关键词:领域知识库构建;命名实体识别;实体属性关系抽取;中文百科;有 指导学习 - I - Ab Abstract ABSTRACT Any information processing system is inseparable from the support of data and knowledge base, especially natural language processing system. As humans, we need to accumulate a large number of the necessary knowledge to understand the natural language, so does a computer system. So a high quality knowledge base is a necessity for a natural language processing system. Although there are several different choices for the task of knowledge extraction considering of the technical detail and reliability, it generally includes two common and closely related subtasks: named entity recognition and

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档