- 1
- 0
- 约2.89万字
- 约 43页
- 2026-05-26 发布于江西
- 举报
软件行业数据部数据分析师数据清洗处理手册(执行版)
第1章数据治理基础与标准规范
1.1数据资产目录架构设计
数据资产目录是软件行业数据治理的“总账本”,其核心目的是将分散在各业务系统(如CRM、ERP、OA)中的非结构化数据和结构化数据统一纳管,确保数据资产的唯一标识(URI)和元数据完整。在架构设计上,我们采用“三级分类+多级标签”的混合模式,将数据划分为业务数据、技术数据和管理数据三个层级。业务数据按业务域(如营销、财务、供应链)进行一级分类,每个业务域下再细分为主题域(如用户、订单、产品);技术数据按技术类型(如日志、指标、配置)分类;管理数据则按组织部门或职能模块划分。这种分层结构既保证了数据的逻辑聚合,又支持了灵活的数据抽取与建模。目录中必须包含每个数据点的“资产ID(用于内部唯一追踪)和“资产URI(用于外部系统集成),同时需明确标注数据的“数据来源系统”、“数据所有者”、“最新更新时间”及“数据状态”(如活跃、归档、待清洗)。在实际操作中,我们要求所有录入数据资产目录的数据必须经过“数据录入规范”校验,例如,对于同一业务域下的主题域,系统应自动校验其资产ID格式是否遵循ISO8601标准,防止重复录入导致的数据孤岛。
为了支持数据资产的可发现性,目录架构需内置“数据血缘”映射关系,即清晰记录数据从源头到终端的流转路径。例如,当用户数
原创力文档

文档评论(0)