《数据中台解决方案20190929》.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据中台解决方数据中台的概念由阿里巴巴首次提出,它是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。数据中台是涵盖了数据资产、数据治理、数据模型、垂直数据中心、全域数据中心、萃取数据中心、数据服务等多个层次的体系化建设方法。 数据中台概念 数据服务化 数据中台是培育业务创新的土壤,是利用数据促进业务创新的保障 数据标准化 “书同文,车同轨”,避免了“重复数据抽取和维护带来的成本浪费” 数据智能化 通过大量智慧算法训练数据细胞,形成数据大脑,产生智慧的力量,预先洞察未来 数据资产化 数据不断的在补充,数据模型不断的进化,只有在滋养中才能从最初的字段单一到逐渐成长为企业最为宝贵的模型资产 数据中台的内核包括两方面:一个是应用数据的技术能力,另一个是数据资产的管理。 数据中台概念 全流程一体化 从数据采集到数据服务全链路通 向上多样化赋能场景 通用产品+行业产品+专享产品 向下屏蔽多计算引擎 公共云+专有云+混合云 双向联动 业务与产品&技术协同互助 One Data OneID OneService 数据标准化 数据规范定义从业务源头标准化 技术内核工具化 规范定义、建模研发、调度运维、… 元数据驱动智能化 半自动化>智能化规划计算和存储 技术驱动数据连接 基于超强ID识别技术连接数据 技术内核工具化 超强ID识别、高效标签生产、… 业务驱动价值化 孤岛>高质量>高价值 主题式数据服务 主题逻辑表屏蔽复杂物理表 统一但多样化数据服务 一般查询+OLAP分析+在线服务 跨源数据服务 屏蔽多种异构数据源 数据中台建设方法 高内聚和低耦合 主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开存储。 数据可回滚 处理逻辑不变,在不同时间多次运行数据结果确定不变。 核心模型与扩展模型分离 建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量的应用的需要,不能让扩展字段过度侵入核心模型,破坏了核心模型的架构简洁性与可维护性。 公共处理逻辑下沉及单一 越是底层公用的处理逻辑更应该在数据调度依赖的底层进行封装与实现,不要让公共的处理逻辑暴露给应用层实现,不要让公共逻辑在多处同时存在。 成本与性能平衡 适当的数据冗余换取查询和刷新性能,不宜过度冗余与数据复制。 开发过程规则 表命名需清晰、一致,表名需易于消费者理解和使用,相同的字段含义在不同表中字段命名必须相同,必须使用规范定义表中的名称。 数据中台设计原则 规范定义是指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、衍生指标等。 一般指标组成体系可以划分为:原子指标、衍生指标、修饰类型、修饰词、时间周期。 原子指标 时间 周期 修饰词 衍生指标 修饰类型 数据规范定义设计 数据地图管理,是对整个数据中台内的数据进行统一查询、管理的“地图”,数据地图主要面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据中心专有云完成数据信息的收集和管理,解决"有哪些数据可用"、"到哪里可以找到数据"的难题,并且提升数据资源的利用率。 基本管理 自动探查平台内存在的表信息,记录表名、字段、分区、存储等信息,同时支持数据预览。 血缘关系管理 根据任务、脚本等因素自动建立血缘关系,实现数据链路的可查询、可跟踪。 生命周期管理 覆盖全部数据的自动化生命周期管理,提高存储系统利用效率。 权限管理 表级、字段级的权限授权、审批等流程,从更高层面保障数据安全。 支持多级表类目管理,实现最快时间找到最需要的数据。 类目体系管理 对同步任务产生的脏数据统一查看与管理。 脏数据管理 对新建、删除、变更表结构等操作自动记录,实现数据操作踪迹可查询。 操作记录管理 数据资产管理 数据模型管理,主要是为解决架构设计和数据开发的不一致性,是为了约束平台使用者的表名、字段名的规范性,架构师从工具层合理的进行模型分层和统一开发规范,包括2部分,一个是规则配置,另一个是对表名、字段名的定期校验。 规范化 检测中心 模型设计 基础配置 表级 模型层级(ODS/DWD/DWS) 主题域(销售、库存、用户) 刷新频率(天、周、日) 增量定义(全量、增量) 模型生成规则 字段级 原子指标 衍生指标 规则生成 层级 主题域 刷新频率 自定义 + + + 示例: ODS_sales_D_customAnaly 模型检测 模型不规范原因分析 字

文档评论(0)

189****2507 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档