- 5
- 0
- 约2.13千字
- 约 15页
- 2017-06-03 发布于湖北
- 举报
评分卡清洗数据课件
数据清洗与字段选取
数据清洗
概况
预处理
空值处理 – 删除字段(数据库的列)
空值处理 – 填补空值
空值处理 – 删除记录(数据库的行)
极端值处理 – 删除
极端值处理 – 调整
概况
在非大数据的数据分析中,数据清洗,是整个评分卡建立过程中较为基础的部分。应用数据清洗中的方法,得到“好的”数据,能让之后的建模过程事半功倍。反之,如果数据清洗的结果并不是特别理想,则会给之后的建模过程造成负担。
一般来说,整个建模过程的80%的工作量在数据清洗阶段。应投入相应比例的人力和物力。
预处理
1. 对于文本型字段,将每一种类型编码
如, 学历字段中,本科=1,研究生=2,其他=3
2. 如果任何一个字段出现类型过多或者类型分布极不平均,应直接删除
如, 性别字段中, 男:女= 9:1
职业字段中,出现4800种类型而数据总量只有5000条记录
3. 对于NA专门编码,归为一类
如, 学历字段中,NA = 6
空值处理 – 删除字段(数据库的列)
如果某一字段的空值的占比较大,比如超过40%,且不能进行大批量的空值填补工作时,应当将此字段删除。
例如:
预审结果字段中
您可能关注的文档
最近下载
- 中医内科学高级职称(正高)2025试题及答案解析.docx VIP
- 2026年高考日语复习必背考纲词汇单词表(精校打印版).docx
- 钢结构室内装饰施工方案.docx VIP
- 综合英语(2)期末试卷及答案.pdf
- 建设工程价款结算暂行办法.pptx VIP
- DLT5111-2024水电水利工程施工监理规范.pptx VIP
- DB1302T 525-2021 钢铁工业研学旅行基地建设与服务规范.docx VIP
- DB1302T 567-2023 矿山迹地恢复水土流失治理技术规范.docx VIP
- DB1302T 563-2023 电梯维护保养档案管理规范.docx VIP
- DB34∕T 2127.7-2026 区域地球化学调查样品分析方法 第7部分:原子荧光光谱法砷、锑、铋、汞含量的测定.pdf VIP
原创力文档

文档评论(0)