- 43
- 0
- 约7.17千字
- 约 6页
- 2018-05-18 发布于河北
- 举报
基于多数据源的知识图谱构建方法研究6页
基于多数据的知识图谱构建方法研究
摘要:传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,
0 引言
在大数据时代背景下,随着海量数据的出现以及多数据融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)[1]作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[2]。
随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3];金贵阳等[4]利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等[6]构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。
针对这些问题,提出了将不同领域知识进行融合成一个知识图谱,旨在构建语义一致、结构一致的多数据融合知识图谱对不同领域内的知识进行查询和展示,提高了数据查询效率。
本文提出一个多数据融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。
1 知识图谱构建过程
知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步:知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习实体层学习则包含实体学习、实体数据填充实体对齐。
知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合,首先采用自顶向下的方式来构建本体库,然后采用自底向的方式进行提取知识来扩展知识图谱。
图1 多数据融合的知识图谱构建过程
Fig.1 Knowledge graph based data fusion model
本文基于多种数据的融合技术,构建相应的知识图谱,具体过程如图1所示。图1中是从多种不同的数据源,如各个领域中的结构化、半结构化和非结构化数据,构建相应的领域库,然后将它们映射为全局本体库,接着对这些领域知识图谱通过数据融合构造知识图谱,最后。
2 多数据融合的知识图谱构建
本文在融合多种数据源的情况下,构建了的知识图谱。首先对不同内构建不同领域的本体库,然后将不同的本体经过映射成本体库,接着对各个的知识进行,构造多数据融合的知识图谱
2.1数据源
用于构建知识图谱的本体库数据源可以来源于结构化数据、半结构化数据和非结构化数据,以及现有的一些通用知识图谱库等。本文用于构建本体库的数据源如表1所示。
1)结构化数据。其主要是指关系数据库中的表、excel表以及其它具有结构的数据。
2)半结构化数据。其主要指介于结构化数据和无结构化数据之间,通常的XML、HTML等相关网页属于半结构化数据。半结构化数据主要来源于百度百科等。
3)无结构化数据。其主要指纯文本资料、图像和声音等数据。
2.2本体库构建
本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确的定义[2]。本体定义了知识图谱中的数据模式,因而,本体构建研究的成果能在很大程度上辅助知识图谱的构建[5]。针对不同的应用领域和不同的需求,
您可能关注的文档
最近下载
- 建筑工程图集 05MR201:城市道路──沥青路面.pdf VIP
- 遗产wow1056无限制端攻略介绍.pdf VIP
- 07MR402 城市道路-装配式挡土墙.pdf VIP
- 航天航空产品研制流程规范.docx VIP
- 07MS101:市政给水管道工程及附属设施.pdf VIP
- 标准图集 - 05MR601 城市道路 - 交通标志和标线.pdf VIP
- 05MR103 城市道路-立体交叉可行性研究、初步设计深度图样.pdf VIP
- 中考现代文阅读——邓宗良《母亲的叶搭饼》.docx VIP
- 凹型螺线管线圈抗偏移特性与稳定性分析.docx VIP
- 人教版八年级语文上册第二单元(单元测试解析版).docx VIP
原创力文档

文档评论(0)