面向国土调查成果的知识图谱构建.pdfVIP

  • 0
  • 0
  • 约6.8千字
  • 约 6页
  • 2026-03-03 发布于河南
  • 举报

面向国土调查成果的知识图谱构建

一、国土调查成果与知识图谱的适配性分析

国土调查成果是国家掌握土地资源家底、制定空间规划与资源保护政策的核心数据

支撑,其内容涵盖土地利用现状、权属状况、地类分布、地理坐标、变更信息等多

维度数据,具有多源异构性、时空动态性、语义关联性三大核心特征。从数据形态

来看,国土调查成果包含矢量数据(如地块边界shp文件)、属性数据(如地类

代码、权属单位名称)、影像数据(如高分辨率遥感影像)及文本数据(如调查报

告、权属证明文件),不同类型数据间存在隐性关联,传统数据库存储与检索方式

难以实现跨模态信息的深度融合。

知识图谱作为一种结构化的语义网络,通过“实体-关系-属性”三元组模型组织

信息,能够有效挖掘数据间的语义关联,恰好适配国土调查成果的复杂数据特征。

一方面,知识图谱可将分散的国土调查数据转化为统一的语义表示,例如将“地块

实体”与“地类实体”通过“属于”关系关联,同时赋予地块“面积”“坐标范围”“变更时间”

等属性,实现多源数据的整合;另一方面,其支持时空维度的语义推理,能够动态

追踪地块地类变更轨迹,满足国土调查成果“年度更新、动态监管”的应用需求。此

外,知识图谱的可视化能力可直观呈现国土空间分布规律,为决策者提供更直观的

信息支撑,因此,构建面向国土调查成果的知识图谱具有重要的理论与实践价值。

二、国土调查成果知识图谱的核心构建流程

面向国土调查成果的知识图谱构建需遵循“数据预处理-知识抽取-知识融合-

知识存储-知识推理”的全流程框架,每个环节需结合国土调查数据的专业特性进

行针对性设计,确保知识图谱的准确性与实用性。

(一)数据预处理

国土调查原始数据存在格式不统一、冗余信息多、数据缺失等问题,需通过数据清

洗、格式标准化、数据补全等操作提升数据质量。首先,针对矢量数据,采用拓扑

检查工具消除地块边界的重叠、缝隙等拓扑错误,确保地块空间位置的准确性;对

于属性数据,通过正则表达式筛选无效值(如地类代码超出GB/T21010-2017

《土地利用现状分类》范围的记录),并结合遥感影像与实地调查记录补全缺失的

属性信息(如部分地块缺失的“耕地质量等级”属性)。其次,将不同格式的数据

(如shp矢量文件、Excel属性表、TIF影像文件)统一转换为可处理的结构化

格式,其中影像数据需通过特征提取工具转化为语义标签(如“建筑用地影像特征”

“林地影像特征”),为后续知识抽取奠定基础。最后,对预处理后的数据进行质量

评估,采用“数据完整性(≥98%)、准确性(≥99%)、一致性(≥97%)”的指标

体系,确保数据满足知识图谱构建的要求。

(二)知识抽取

知识抽取是从预处理后的国土调查数据中提取“实体-关系-属性”三元组的关键

环节,需结合数据类型采用多模态抽取方法,具体包括实体抽取、关系抽取与属性

抽取三部分。

在实体抽取方面,针对国土调查数据中的核心实体(如地块、地类、权属单位、行

政区域、调查时间),采用“规则匹配+深度学习”的混合抽取策略。对于结构化

数据(如属性表),通过预设规则(如地类代码匹配规则0101“对应水田、0102

对应水浇地”)直接提取实体;对于非结构化数据(如调查报告文本),采用BERT

-BiLSTM-CRF模型进行实体识别,通过标注“地块编号(如XZ2023-001)、

权属单位(如XX村集体经济组织)”等实体样本训练模型,提升实体抽取准确率,

经测试,该模型在国土调查文本数据中的实体识别F1值可达0.96以上。

关系抽取需挖掘实体间的语义关联,国土调查数据中的核心关系包括“地块-属于

-地类”“地块-归属于-权属单位”“地块-位于-行政区域”“地类-变更为-

地类”等。针对结构化数据,通过关联表中的外键关系(如地块表中的“地类代码”

与地类表中的“代码”关联)提取关系;针对半结构化数据(如XML格式的变更记

录),采用基于依存句法分析的方法识别关系;针对非结构化数据,采用基于注意

力机制的关系抽取模型(如RE-BERT),通过捕捉文本中“变更”“归属”等关键词

的上下文信息,实现关系的自动抽取,例如从文本“地块XZ2023-001于2023

年从旱地(0103)变更为水浇地(0102)”中抽取“地块XZ2023-001-变更为-

水浇地(0102)”“地块XZ2023-001-变更前为-旱地(0103

文档评论(0)

1亿VIP精品文档

相关文档