- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
金融级数据研发DataOps实践
;
目录
一、数据研发问题及挑战
二、数据研发DataOps实践
三、未来展望;;;
数据研发平台DataOps目标
?统一数据研发平台核心目标将DataOps的数据管理方法论融入数据开发,以及一些自动化测试,部署等技术,构建标准数据研发生产流水线。支撑数据资产中心的数据全民化,安心计划,破壁计划。;
目录
一、数据研发问题及挑战
二、数据研发DataOps实践
三、未来展望;;
数据研发平台DataOps-全流程开发流程标准化
?基于《数据研发流程基线细则》和《大数据平台管理细则》,统一数据研发全周期流程(包括数据源、数据集成、数据加工、指标定义、数据服务等),引入CI/CT/CD方法融入并标准化数据研发流程,降低模型研发过程中的人为风险同时,提升整个数据研发效率。;;
治理全景;
实时质量异常阻断(依据血缘依赖阻断下游自动调度)
通过数据血缘关系,实时呈现数据调度进度;
数据研发平台DataOps-开发测试一体化
?为解决大数据数据质量测试痛点,在测试环境无法完全复现生产问题,生产数据脱敏到测试环境仍有安全隐患,因此需要构建数据研发测试一体化平台,完善数据研发流程,满足监控合规的评审需求,数据需求闭环管理,数据开发、测试、变更流程统一管理,并和数据监控规则打通,保证全流程质量闭环;
数据研发平台DataOps-数据安全治理
?从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例,是通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段,判断用户权限,返回用户对应的脱敏数据。;
数据研发平台DataOps-数仓分层加密处理过程
?ODS贴源层(raw):敏感字段识别,利用正则+算法+人工,识别出贴源数据表的敏感字段。
?ODS加密层(mid):高敏感字段加密,将银行卡号,手机号,证件号进行加密储存。
?数仓、集市等层:利用字段级血缘关系,标识出每张表敏感字段。
?数据查询访问:应用端查询数据时,对统一查询中心(router),根据访问的敏感字段及敏感脱敏类型进行脱敏处理。;
数据研发平台DataOps-敏感数据发现
?源生产系统数据集成过程中,无论实时或者离线采集,开发治理一体化平台基于数据规则自动实现敏感数据发现;;
数据研发平台DataOps-数据沙箱实现数据流通、安全共享
?基于沙箱数据只进不出和分析应用相互隔离两大原则构建数据沙箱环境,差异化数据融合模式,确保安全可控要求下,提升训练和探索环节效率,便捷化数据应用通道。;
?构建支持数据开发全流程的沙箱环境,确保与生产库分离,只进不出,数据采样。既满足应用系统的沙箱环境数据探索需求,同时提升数据研发
使用效;
数据研发平台DataOps-成本价值管理能力
?平台层面深化数据价值评估体系探索,实现数据成本与价值的多维度可量化分析,基于成本/价值实现数据资产的ROI分析以及成本治理。;;
目录
一、数据研发问题及挑战
二、数据研发DataOps实践
三、未来展望;
核心能力:
逻辑数仓层
构建面向用户和下游应用消费的逻辑数仓层,将逻辑表与物理表隔离,将物理表交给系统层优化
物理层智能调度
透明数据ETL逻辑和物理存储介质,由逻辑层用户行为和需求触发,实现数据生产链路的智能编排和调度,针对重复、相似计算进行自动合并,下线或降权无效、低频、低价值数据生产
性能自优化
基于用户查询行为实现自适应的查询性能优化,自动实现物化、缓存或构建Cube/索引
从被动到主动的数据治理,实现“数据
自动驾驶”
逻辑层基于业务需求快速调整,物理层自适应上层调整,识别数据核心资产元;
逻辑数仓
逻辑ADS
(数据应用层)
逻辑DWS
(数据轻力度汇总层)
逻辑DWD
(事实明细层)
文档评论(0)