99-数据治理通用能力需求规格书V1.1.docx

99-数据治理通用能力需求规格书V1.1.docx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

五、数据治理能力需求

5.1功能概述

为了实现数据的融合、数据的标准化、数据的服务化、数据的运营,对跨域数据按照质量规则进行集成、计算、存储、清洗、转换,最终将数据抽象封装成服务,满足前台的展示的目标,必须具备元数据管理、数据标准管理、数据资产管理、数据质量管理、数据生命周期管理、数据开发功能、数据服务功能、计算引擎、数据标签等能力。

5.2计算引擎

5.2.1大数据采集能力

基于多种数据采集的场景,治理能力应提供如常用数据库、Sqoop、Flume、物联网爬虫、消息队列、物联网平台等多种数据采集方式,适应各种外接数据源,增强对各种异构数据源、不同共享方式的适配能力;支持采集结构化数据、非结构数据、时序数据等;具备可视化采集策略配置能力,支持全量采集、增量采集、实时采集,支持配置采集任务,根据数据更新频率定时采集。

5.2.2大数据存储能力

数据存储入数据湖。数据湖建设需要将数据仓库的管理功能和数据仓库相适应的性能优化能力,与支持多种数据格式、低成本存储的数据湖的灵活性结合起来,并引入统一元数据层,不仅要统一基于表的数据访问和基于文件的数据访问方式,还需实现事务管理功能和其他诸如访问控制、版本控制等管理功能,形成湖仓一体架构。

方式大致分为以下几种:结构化数据采用关系数据库存储,非结构化数据和半结构化数据采用对象存储或Nosql数据库存储,实时数据采用时序数据库存储,图数据存储采用图数据库存储,根据不同的数据场景和业务需求支持使用ElasticSearch进行存储(ES是一款分布式的全文检索框架,底层基于Lucene实现,ES也提供存储、检索功能)。

提供数仓建设能力,数仓分层及各层的作用如下:

?ODS层,定义为存储层,仅以技术手段(快照形式)保留历史数据,不做任何转换,与业务侧的DB实体保持同构;

?DWD层,定义为明细层,对ODS层的数据进行清洗转换;

?DWM层,维度层,对数据按照常用的维度进行轻度汇总;

?DWS层,主题宽表层,按照业务主题进行汇总,保留更少的维度;

ADS层,数据应用层,存储的是聚合后的数据;

?节点扩容:支持通过扩容节点的方式保障服务性能不降低,同时增加数据存储能力(最终存储量以服务器配置为主)。

?非结构化存储能力:要求非结构化文件存储支持私有云对象存储服务,同时支持本地化存储。

5.2.3大数据计算能力

底层计算引擎,离线计算采用Spark,实时计算采用Flink。计算引擎采用先进的大数据生态底层技术,通过Spark、Flink等开放的体系架构提供实时/离线计算框架,具备高性能且功能丰富的大数据处理能力,可以最大化的分析数据价值,完整实现数据应用的闭环。在提供开发环境和平台接口的同时,对大数据离线计算、实时计算、数据仓库建设等多种应用提供有效支撑。

离线计算引擎,离线计算采用Spark计算引擎,系统完全基于分布式架构,具备横向扩展能力,当数据量增大,计算性能面临瓶颈时,只需要增加节点,即能解决计算性能问题。

实时计算引擎,Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。Flink将流处理和批处理统一起来,也就是说作为流处理看待时输入数据流是无界的;批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。

5.2.4大数据处理能力

数据处理包括数据清洗、数据转换、数据提取、数据计算,支持解码/编码、聚合/拆解、过滤/抽取、中转/分发等多种处理方式。支持SQL接口,满足SQL开发方式。

系统采用可伸缩的数据处理技术架构,按照数据处理流中的自然阶段进行了层次划分,分别为:数据采集与预处理服务、数据存储服务与数据分析计算服务。进行层次划分后将领域问题拆解、控制在合适的粒度大小,利于展开后续的研发设计并为后续的实现过程奠定了模块化、组件化的指导基础。层次间的衔接与交互采取“服务化”的设计思路,层次间弱耦合,在层间通信契约稳定的前提下,各层均可独立的进行扩展变更。

5.2.5统一调度管理能力

大数据所用组件以容器化的应用形态发布并使用,可以基于云管理平台所提供的容器化应用的统一调度管理机制进行调度管理。

5.3数据抽取(ETL)工具

5.3.1数据源管理

数据源管理可以对多种数据源进行新增,编辑和删除操作,提供包括但不限于关系型数据库、NoSQL存储、网络协议、消息队列、文件系统、大数据相关等多种数据源的管理能力,实现对数据源标准和统一的操作和管理。

5.3.2数据集管理

能够进行主题建设和维表建设。完成主题域、主题集、主题表、维表等数据分类的建设。

5.3.3数据交换

要求支持离线数据交换和实时数据交换。

离线数据交换在源端数据同步开始前可以进行数据质量规则校验,根据配置规则的阻塞、

文档评论(0)

152****8691 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档