- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
以业务术语为线索的数据分类目录 多视角以树形层次,按主题、部门、业务模型等视角对数据进行分类分级管理 32 传统 IT 架构的数据质量问题 构架师的理想 数据仓库 生产库 实践中的现实 A D M A D M A D M 应 用 生产库 O D S O D S 数据仓库 E D W A D M 应 用 生产库 汇 聚 O D S 建 模 E D W 建 模 应 用 生产库 应 用 生产库 应 用 生产库 应 用 标准不统一,数仓的数据处理局限于特定应用,新应用开发时原数仓数据不适用,新应用拒绝老数仓; 认为生产库原始数据更可信,每次开发都重新拖库建新表,存储资源浪费,重复劳动很大; 应用之间没有数据联系,各自负责各自的数据正确即可,没人关心后台数据的管理效率,维护动力不足; 数据质量问题的危害 数据质量问题 ? 未建立数据标准, 或标准未落实 ? 使用人员认知或责 任心问题 ? 程序 Bug 问题 知识共享问题 ? 人员离职,知识 没有有效传承 ? 业务描述偏差 ? IT 人员理解偏差 数据版本问题 ? 数据有多个版本, 各版本数据不一致 ? 没有统一、权威的 数据来源 数据安全问题 ? 测试数据未脱敏 ? 缺乏安全管理机制 原因分析 “数据沼泽”和“信息黑洞” 财务与业务部门上报的营收指标不一致; 发生客户信息泄密事件,被不法分子利用; 解决思路 数据治理 是一项系统工程,需要一个持续改进的过程 数据安全管理 对数据的加工、流转、使用进行监控,预防数据泄密 提供手段,对数据质量问题进行监控,量化数据质量问题,形成 治理闭环 进行清洗、整合加工,形成统一、权威的数据来源 知识规范、存储、转承,更好的去理解业务口径、数据模型、处 理规则 又可称之为“元数据管理” 组织人员 手段 数据质量管理 规章流程 核心 数据整合加工 技术工具 基础 信息知识管理 标准规范 数据质量管理的落实 引导用户正确生成、使用数据, 提升数据质量 对业务用语、系统 编码、数据格式, 取值范围进行标准 建立数据标准管理 化 组织 定义数据标准化变 更流程 名称类数据 ID 地址类数据 代码类数据 标识类数据 金额类数据 日期类数据 … —— 标准化 DataRiver 准管理模块 数据标 建立数据标准 数据规范化信息的集中管理,便捷的查询方式,便于形成一致的理解和知识共享 1 、业务术语标准 ? 业务概念、业务含义、业务对象关系 ? 举例:客户、用户、 VIP 2 、数据模型标准(主题、实体、关系) ? 核心业务对象:员工、客户、产品、地址 ? 举例:员工(工号、姓名、性别、住址…) 3 、数据元素标准 ? 数据库字段:数据的最小单元 ? 举例:身份证件号码(中文名称、英文 名称、数据类型、长度、值域…) 4 、基础编码标准 ? 某个数据元素的取值定义代码 ? 举例:民族:汉、回、藏、壮… 37 按标准模型驱动数据整合 基于标准数据模型驱动数据整合 数据主题( L1 ) 对数据分类 ? 展示数据的业务关系 ? 不同用户对数据理解一致 ? 按标准模型整合不同源数据 ? 以实体为对象检索、管理、使用数据 模型层 实体( L2 ) 实体及关系 实体属性( L3 ) 实体关键属性 ? 物理数据使用不方便 物理数据层 着陆区 数据仓库 数据集市 ? 物理数据不易理解 ? 业务信息缺乏和碎片化 38 数据质量问题和解决路径 及时性 : 数据刷新、修改和提取等不 够及时 完整性 : 数据信息存在缺失的情况 数据质量信息问题 规范性 : 数据未按统一格式存储,未 遵循统一的规范 一致性 : 数据的值在信息含义上是冲 突的,数据不符合逻辑 准确性 : 数据和信息不正确的或者超 期,存在异常或错误 唯一性 : 存在重复的数据或者属性 ? 事前质量风险评估 ? 事中发现阻止问题 ? 事后辅助问题解决 质量分析 质量监控 质量提升 问题处理 39 数据治理——数据质量分析监控 事前质量风险评估 事中发现阻止问题 事后辅助问题解决 数据治理——全链路数据血缘跟踪 统一元数据管理 ? 一张图看清每个数据的来源去向 ? 基于血缘图进行 数据质量和数据安全问题 溯源、影响分析 数据建仓——机器学习辅助数仓标准化建设 自然 语言 处理 文本 向量 化 语料 库准 备 智能 辅助 相似 度计 算 ? 业内首创 ? 1 人年 -1 人周 数据治理——可视化数据清洗整合 60% 人工投入 2.5 倍 效率 10 倍 以上 平均计算资源消耗 数据挖掘——可视化数据开发和算法开发 数据开发环境 算法实验室 ? 0 编程基础 大数据算法基础开发 ? 算法开发整体效率提升 1 倍 以上 ? 一站式 数据开发、测试、生产、运维环境 安全管控手段 多租户: 租户之间元数据 / 数据 / 数据库对象完全隔离
文档评论(0)