数据资产与治理：浅谈数据血缘的作用与价值.docxVIP

下载本文档

3
0
约2.57千字
约 9页
2023-04-19 发布于湖南
举报
版权申诉

数据资产与治理：浅谈数据血缘的作用与价值.docx

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据资产与治理：浅谈数据血缘的作用与价值一、从数据应用场景看什么是数据血缘 1.数据问题排查与运维工作日早上上班，业务人员打开电脑看到昨日数据报表同比下降60%，于是找到数据部门“你们数据是不是有问题？”。常见数据异常的原因包括：及时性问题，大数据集群资源不足或者平台系统故障导致任务延迟代码质量问题，开发修改逻辑，导致数据清洗逻辑有误带来数据不准业务规则变更，业务变动数据加工代码未及时更新源端脏数据问题，业务开发系统发布数据源问题导致结果错误数据人员的排查路径如下：第一步：找到报表指标来源的API接口，确定来源数据表（可能是GP表或者ClickHouse表）第二步：查找GP表对应的数据同步任务，以及Hive表的产出任务，查看任务是否正常执行完毕第三步：找到Hive表加工任务的上游，逐层向上排查，先保证整个链路的任务都是正常执行的，因为及时性问题是最高频、常见且容易处理的问题第四步：检查数据加工流程各项正常后，再看指标产出表的加工代码，一是看是否近期有人为变更，二是翻代码校验对应的逻辑，按照指标加工的代码层级逐级定位有问题的数据表。第五步：通过层层排查，定位了问题，但是问题的修复和数据重跑需要些时间，得赶紧通知下游，避免错误数据给业务带来的错误决策和应用，比如错把老客算成新客，带来营销费用损失，数据开发就要背锅了。 2.数据治理与成本优化数据部门通常是一个企业的成本中心（toB商业化数据产品除外），一个中大型数据驱动的互联网企业大数据集群服务器一般会占公司服务器比例在15%~30%，一台服务器成本4W，每天10PB数据存储和计算处理量，大概需要1000+服务器节点，机器折旧周期3年算，平均个月也需要大几十万的硬件成本。所以，数据部门除了做增量的业务支撑外，还要常态化的数据治理，把长期没人使用的冷数据进行删除，释放存储和计算资源。直接删库跑路肯定不行，删除或归档任何一个数据，都需要尽可能全面的确认到底有没有下游的业务方在使用。 3.数据血缘的定义数据血缘，顾名思义，数据之间的血缘关系，好比人之间亲情远近亲疏一样。百科定义：数据血缘关系是指数据在产生、处理、流转到消亡过程中，数据之间形成的一种类似于人类社会血缘关系的关系。数据血缘从数据角度可以是数据库、表、字段、系统、应用程序，即数据存储在什么数据库的什么表，对应的字段是什么以及字段的属性。从业务角度主要是数据所属业务线，涉及到业务便要梳理清楚数据的产生逻辑、数据的使用逻辑以及业务线之间的关联关系。因为数据的生产加工最终是要回归和赋能业务，什么数据，被哪个业务场景使用，需要血缘关系进行串联。二、数据血缘作用与表现形式 1.数据血缘的作用开篇的场景中的案例是数据血缘的两个典型的作用，总结成一句话就是数据血缘可以帮助数据生产者以及消费者更好地对数据进行追根溯源，提升数据运维、数据治理的效率。 (1)提升数据问题排查效率数据从生产到赋能业务应用经过很多的处理环节，业务端报表或数据应用服务异常时，需要第一时间定位问题，排查修复。如果靠一层一层的人肉翻代码效率非常低下，一方面数据开发人力花费在排查上，另一方面定位问题时间越长业务影响和损失越大，基于血缘数据加以可视化的展现形式，可以直观地发现数据生产链路，以及各个环节有无异常。 (2)有助于优化数据资产成本随着业务地发展数据不断增长，任务、数据表只增不减会不断膨胀大数据资源成本。很多时候不是不愿意做数据、服务治理，二是不敢。也就是不知道对应的服务有哪些业务在使用，缺少治理的依据，与其直接下线带来业务影响，倒不如一直维持现状。构建全面准确的全链路数据血缘，就可以找出数据下游应用方，做好沟通和信息同步，长期没有调用的服务，及时做下线处理，节省数据成本。 (3)提升数据产品及应用体验数据部门经常被业务Diss数据是不是有问题，长此以往，会降低业务对数据准确度的信任，搞数据的天天被打上数据不准的标签还是很无奈的。在数据产出任务层面对数据质量的准确性、一致性、及时性、完整性等维度进行监控覆盖，触发报警机制后，利用数据血缘关系，对下游应用进行通知提醒。业务看到后，至少知道数据部门在处理问题了，不会利用错的数据做错误的决策，或者形成每次都是业务先发现问题的认知。 (4)方便确认数据处理逻辑业务部门在使用数据时，有时候需要确认数据口径和加工逻辑是什么，是否符合自己的需求，通过血缘的可视化展示，可以方便业务部门查看数据的处理过程。 2.血缘的表现形式每个数据表、字段、指标都可以认为是一个数据实体，而生产它的上游，以及使用它的下游，都是对应的数据实体之间的关系，因此，在血缘数据的可视化展示时，主要采用可以直观表示数据生产链路的形态，每个节点需要包含以下要素：当前节点信息：名称、类型、状态上游：关系、上游名称、类