- 131
- 0
- 约小于1千字
- 约 2页
- 2020-09-12 发布于浙江
- 举报
数据清洗规则
数据清洗规则包括:非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核。
非空检核:要求字段为非空的情况下,需要对该字段数据进行检核。
主键重复:多个业务系统中同类数据经过清洗后,在统一保存时,为保证主键唯一性,需进行检核工作。
非法代码、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值问题包括取值错误、格式错误、多余字 符、乱码等,需根据具体情况进行校核及修正。
数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多余字符、乱码。
记录数检核:指各个系统相关数据之间的数据总数检核。
2. 缺失值清洗
按照以下四个步骤进行:
确定缺失值范围:按照缺失比例和字段重要性,分别制定策略:
重要性高,缺失率低:通过计算进行填充;通过经验或业务知识估计;
重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;
重要性低,缺失率低:不做处理或简单填充;
重要性低,缺失率高:去掉该字段;
2.2 去除不需要的字段:直接删掉即可
2.3 填充缺失内容,某些缺失值可以进行填充,方法有以下三种:
??以业务知识或经验推测填充缺失值;
??以同一指标的计算结果(均值、中位数、众数等)填充缺失值;
??以不同指标的计算结果填充缺失值。
格式内容清洗
简单来说,格式内容问题有以下几类:
1、时间、日期、
您可能关注的文档
最近下载
- 2025年淄博市沂源县小升初数学秋季入学摸底测试卷(含答案).doc VIP
- 建筑装饰设计收费标准完整版(最新).docx VIP
- 四川省《信息技术》学业水平考试复习考纲说明及重点归纳(代老师提供精品.pdf VIP
- Zobisbored教学设计_原创精品文档.pdf VIP
- 白天鹅酒店管理实务.pdf VIP
- SFE架式脚踏封口机使用说明书.pdf
- 2025年黑龙江省大庆市地理生物会考真题试卷+答案.docx VIP
- 小学语文-四升五语文暑假衔接讲义.pdf VIP
- 2026云南曲靖市沾益区珠源百人引才工程青年人才专项引进20人考试备考试题及答案解析.docx VIP
- 阀门试压试验记录.doc VIP
原创力文档

文档评论(0)