数据清洗规则.docVIP

  • 131
  • 0
  • 约小于1千字
  • 约 2页
  • 2020-09-12 发布于浙江
  • 举报
数据清洗规则 数据清洗规则包括:非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核。 非空检核:要求字段为非空的情况下,需要对该字段数据进行检核。 主键重复:多个业务系统中同类数据经过清洗后,在统一保存时,为保证主键唯一性,需进行检核工作。 非法代码、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值问题包括取值错误、格式错误、多余字 符、乱码等,需根据具体情况进行校核及修正。 数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多余字符、乱码。 记录数检核:指各个系统相关数据之间的数据总数检核。 2. 缺失值清洗 按照以下四个步骤进行: 确定缺失值范围:按照缺失比例和字段重要性,分别制定策略: 重要性高,缺失率低:通过计算进行填充;通过经验或业务知识估计; 重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取; 重要性低,缺失率低:不做处理或简单填充; 重要性低,缺失率高:去掉该字段; 2.2 去除不需要的字段:直接删掉即可 2.3 填充缺失内容,某些缺失值可以进行填充,方法有以下三种: ??以业务知识或经验推测填充缺失值; ??以同一指标的计算结果(均值、中位数、众数等)填充缺失值; ??以不同指标的计算结果填充缺失值。 格式内容清洗 简单来说,格式内容问题有以下几类: 1、时间、日期、

文档评论(0)

1亿VIP精品文档

相关文档