基于图数据库的元数据血缘关系分析技术研究与实践.docx

基于图数据库的元数据血缘关系分析技术研究与实践.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于图数据库的元数据血缘关系分析技术研究与实践

?

?

【摘要】图数据库是近年来成长最快的数据库分类,在关系存储上具有的巨大的优势使其得到各行各业的广泛关注。本文将分享基于图数据库对元数据血缘关系进行的研究和实践,希望读者通过本文可以对相关知识及其在企业的实际应用有更进一步了的了解。

1背景

图数据库,不是存储图片的数据库,而是以图论为基础存储节点与节点间关系的数据库。图数据库是近年来成长最快的数据库分类,从社交网络到金融关系,都会涉及大量的高度关联数据,因此图数据库很早就开始被Twitter,Facebook和Google等公司采用,也成为当今各行各业所推崇的主流技术。

较传统关系型数据库,关系在图数据库中是最重要的元素,应用程序不必使用外键约束实现表间的相互引用。图1分别展示了图数据库和关系型数据库在查找三度人脉关系时的工作原理,可以看出图数据库能够充分发挥其存储关系的优势,利用关系作为连接跳板进行查询,而关系型数据库必须进行表连接的操作,表连接次数随着查询的度数增大而增多,会极大影响查询的响应速度。

图1?图数据库和关系型数据库查找三度人脉关系逻辑示例

图数据库支持非常灵活和细粒度的数据模型,可以用简单直观的方式对数据应用进行建模和管理,利用图的方式来表达现实世界的很多事物将更为直接、易于理解,同时图数据库在查询关系时性能极佳,在深挖关系上极具潜力,具备挖掘数据潜在价值的能力,与关系数据库相比,图数据库可支持更多类型的关系场景,本文将基于图数据库对元数据血缘关系进行研究和实践。

1.1元数据

大数据时代的到来,意味着数据的海量性和复杂性。随着平台应用不断推广创新,基础数据也会飞速增长,增长的数据就会存在血缘不清、重复存储加工、口径混乱、数据质量参差不齐等一系列问题。元数据是描述数据的数据,对数据及信息资源进行描述,是关于数据的更高层次抽象,通过对元数据的有效管理,能够有效解决上述问题。

根据元数据描述对象的不同,可将其划分为业务元数据、技术元数据和管理元数据。(1)业务元数据主要记录在系统中业务的相关概念信息,包括业务术语、信息分类、指标定义、业务规则等。(2)技术元数据描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。(3)管理元数据定义系统中涉及管理领域的相关概念等信息,如对项目管理、IT运维、IT资源设备等相关信息的描述。

元数据实现了信息的描述和分类的格式化,能够对数据资产进行有效管理,理清数据之间的关系。元数据可以帮助研发人员了解平台的情况,例如平台所包含的数据、数据存储占用的空间、数据存储位置、数据产出信息等,在此基础上可以做一些运维报警工作。此外,它还有助于制定平台数据统计的标准,梳理出统一的数据口径、计算指标、上下游关联关系,为数据质量及维护可视化奠定基础。

1.2元数据应用

元数据记录了系统包含的数据、数据的表示、数据的来源,以及在系统中的流转关系。元数据的应用广泛,可以使用其构建业务术语、数据标准、数据字典、数据资产目录、数据血缘关系以及数据地图等。下面将主要介绍下文所涉及的数据血缘关系。

数据血缘能够表示数据与数据之间的关系,反映数据在系统中的生产加工流程,主要包括集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系,当溯源数据的上游,即可查询该数据的生成流程,对其来源进行跟踪。当分析下游流向时,便具备影响度分析的功能。

在系统进行升级改造时,通过对依赖数据进行影响性分析,可以快速定位到下游受到影响的范围,从而减少系统升级改造带来的风险,如图2快速定位改造影响系统范围。当同时分析上游和下游流向时,即能获得完整的数据流动链,依据此可以更好地分析依赖关系,辅助后续系统功能的增加。

图2?快速定位改造影响系统范围

2元数据血缘关系实践

使用图数据库存储查询元数据血缘关系,需要首先梳理出元数据之间的关联关系建立图模型,再以此为基础整理出所需的数据,并将数据加载进图数据库,之后即可设计关系模型进行链路匹配查询。

本文基于农业银行人民银行金融基础数据报送系统,梳理了系统中表、脚本、作业、作业链、应用系统、主机、节点之间的关系,以构建图模型。在数据准备环节,通过SQL脚本获得脚本和表之间的关系以及表和表之间的关系,通过调度监控台中作业链相关信息,建立作业和脚本,作业链和作业,父子作业等关系。随后在图数据库平台上进行操作,创建图模型、建立模型与数据的映射关系,并执行数据加载操作,完成从建模到数据装载的过程。为了实现血缘关系的查询,需要提前设定好图的匹配模式,在此基础上编写相应的图查询语句。结合现有的数据,本文展示了三种关系分析模型。

2.1图模型定义

在图模型的设计上,本文采用先建立实体,再以实体节

您可能关注的文档

文档评论(0)

135****3718 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档