- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
哈尔滨工业大学工程硕士学位论文
摘要
在传统制造业企业中存在大量的工艺文件、专利说明、设计文档等相关知识,
多数的设计工作与研究可以通过查阅此类前人经验与知识来提高效率,然而制造
业企业知识通常以碎片化的形式存在,缺乏有效的关联与组织,难以支持知识重用。
知识图谱能以特定的结构将这些知识进行解构并有效的联系起来,有效组织和构
造完备知识空间,是实现智能制造的保障。为提高知识的利用效率,增强制造业知
识的现代化智能管理及应用,本文研究知识图谱自动构建方法,主要包括命名实体
识别、实体关系抽取与实体对齐方法研究,并基于此开发知识图谱自动构建与管理
系统以支撑下游的智能化场景应用。具体内容包括:
为从机械领域专利文本中识别构建知识图谱所需的实体,提出ERNIE-
C·BiLSTM-CRF命名实体识别模型。针对汉语语素的基本特征,模型引入ERNIE
嵌入层,以增强模型的语义建模能力;基于双向LSTM模型原理构建C·BiLSTM
模型,以获得更好的上下文信息;针对标签转移的约束问题,融合Linear-ChainCRF
模型,以增强模型的标签预测能力。采用公开数据集及构建的机械领域专利命名实
体识别数据集对ERNIE-C·BiLSTM-CRF模型进行实验验证。
为从机械领域专利文本中获取构建知识图谱所需的实体间关系,提出AREL
关系抽取模型。该模型基于传统关系抽取模型,采用特殊符号增强实体的类别及位
置特征;为解决句子级关系抽取中长文本噪声过大的问题,采用注意力机制加强关
键信息的权重。最后采用公开数据集及构建的机械领域专利关系抽取数据集对
AREL模型进行实验验证,并基于命名实体识别与关系抽取构建知识图谱。
为实现实体对齐以支持知识图谱数据应用,提出融合文本特征的ERNIE-GCN
模型。该模型使用ERNIE嵌入层生成知识图谱的节点特征矩阵;基于图卷积神经
网络实现邻居节点特征聚合;通过计算实体对在GCN空间的距离实现实体对齐。
本文在公开数据集及构建的机械领域专利知识图谱实体对齐数据集对ERNIE-
GCN模型进行实验验证。
基于所提出的理论方法研发知识图谱自动构建系统,实现知识建模、知识抽取、
图谱构建、图谱编辑、知识融合与信息推理等功能研发,有效提高知识的利用效率
并支撑智能化的应用。
关键词:知识图谱;命名实体识别;关系抽取;实体对齐
-I-
哈尔滨工业大学工程硕士学位论文
Abstract
Intraditionalmanufacturingenterprises,thereexistsanabundanceofprocess
documents,patentdescriptions,designdocuments,andotherrelatedknowledge.Most
designworkandresearchcanimproveefficiencybyconsultingthesepriorexperiences
andknowledge.However,knowledgeinmanufacturingenterprisesoftenexistsina
fragmentedform,lackingeffectiveassociationsandorganization,makingitdifficultto
supportknowledgereuse.KnowledgeGraphcandeconstructandeffectivelyconnect
thesepiecesofknowledgewithaspecificstructure,organizingandconstructinga
comprehensiveknowledgespace,thusservingasa
文档评论(0)