互联网行业数据部数据分析师数据清洗挖掘手册(执行版).docxVIP

  • 1
  • 0
  • 约2.48万字
  • 约 36页
  • 2026-05-07 发布于江西
  • 举报

互联网行业数据部数据分析师数据清洗挖掘手册(执行版).docx

互联网行业数据部数据分析师数据清洗挖掘手册(执行版)

第1章数据治理与标准规范

1.1数据分类分级与主数据管理

这是数据治理的基石,旨在通过明确的定义将海量数据资产进行“分类”与“分级”,以便组织制定差异化的存储、处理与保护策略。在医疗或金融等强监管行业,通常将数据分为内部公开、内部公开、内部受限、外部公开四个层级,其中“内部受限”数据(如患者身份证号、病历主记录)需最高级别保护,“内部公开”数据(如处方明细)可适度共享,而“外部公开”数据(如公开新闻)则自由流通。主数据管理(MDM)是解决多源异构数据中重复、不一致主记录的关键机制,确保全公司或全系统对同一实体的定义统一。例如,在电商系统中,用户ID必须唯一且全局唯一,不能存在“”与“ZhangSan两种不同ID,主数据平台会自动清洗并映射这些差异,唯一的MasterID,从而消除因姓名拼写不同导致的订单匹配失败。

数据分类分级通常依据数据的敏感程度、业务价值及泄露后果进行量化评分,评分越高则保护等级越严。例如,某银行流水号若被泄露可能导致资金被盗,评分为9分,需加密存储;若为普通营销短信,评分为1分,仅做脱敏即可。分类结果直接决定了数据在数据仓库中的存储模式(如行级脱敏、列级加密还是全量加密)及访问权限控制策略。在实施主数据管理时,必须建立“数据所有者”制度,明确每个主数据项的负责人,该负责人负责

文档评论(0)

1亿VIP精品文档

相关文档