评分卡清洗数据课件.pptxVIP

  • 5
  • 0
  • 约2.13千字
  • 约 15页
  • 2017-06-03 发布于湖北
  • 举报
评分卡清洗数据课件

数据清洗与字段选取 数据清洗 概况 预处理 空值处理 – 删除字段(数据库的列) 空值处理 – 填补空值 空值处理 – 删除记录(数据库的行) 极端值处理 – 删除 极端值处理 – 调整 概况 在非大数据的数据分析中,数据清洗,是整个评分卡建立过程中较为基础的部分。应用数据清洗中的方法,得到“好的”数据,能让之后的建模过程事半功倍。反之,如果数据清洗的结果并不是特别理想,则会给之后的建模过程造成负担。 一般来说,整个建模过程的80%的工作量在数据清洗阶段。应投入相应比例的人力和物力。 预处理 1. 对于文本型字段,将每一种类型编码 如, 学历字段中,本科=1,研究生=2,其他=3 2. 如果任何一个字段出现类型过多或者类型分布极不平均,应直接删除 如, 性别字段中, 男:女= 9:1 职业字段中,出现4800种类型而数据总量只有5000条记录 3. 对于NA专门编码,归为一类 如, 学历字段中,NA = 6 空值处理 – 删除字段(数据库的列) 如果某一字段的空值的占比较大,比如超过40%,且不能进行大批量的空值填补工作时,应当将此字段删除。 例如: 预审结果字段中

文档评论(0)

1亿VIP精品文档

相关文档