数据清洗方法20161020技术总结.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目 录;; (一)必录项及重要指标项空缺 (二)指标值异常 (三)指标值之间逻辑关系异常 (四)业务逻辑关系异常 (五)贫困户、贫困人口重复; (一)必录项及重要指标项空缺 1.贫困户识别标准为空 2.贫困户属性为空 3.主要致贫原因为空 4.脱贫状态标识为空 5.行政区划为空 6.证件号码为空; (一)必录项及重要指标项空缺 7.文化程度为空 8.健康状况为空 9.劳动技能为空 10.务工状况为空 11.在校生情况为空 ……; (二)指标值异常 1.证件号码不符合校验规则 2.其他致贫原因超过两项 3.出生日期与身份证号中的出生日期不符 ; (二)指标值异常 4.务工时间不符合指标采集规范 5.人均纯收入为0或超5位数 6.与村主干路距离超过50公里 …… ; (三)指标值之间逻辑关系异常 1.务工状况为“非务工”,务工时间不为0 2.贫困户无务工人员,却有工资性收入 3.贫困人口丧劳,有外出务工情况 ; (三)指标值之间逻辑关系异常 4.年收入逻辑关系异常 5.人均纯收入逻辑关系异常 6.低保贫困户无低保金 ; (三)指标值之间逻辑关系异常 7. “与户主关系”和“性别”不符 8.贫困户“家庭人数”与实际人口数不符 9.贫困户存在多个户主 10. 残疾人无残疾证 ; (四)业务逻辑关系异常 1.贫困户家庭无在校生,主要致贫原因为“因学” 2.贫困户家庭无残疾人,主要致贫原因为“因残” 3.贫困户家庭成员健康状况全部为“健康”, 主要致贫原因为“因病”。; (四)业务逻辑关系异常 4.返贫户在上一年度贫困户属性非“已脱贫” 5.贫困户空挂 7.脱贫户人均纯收入低于国家贫困标准 8.年龄在16-60周岁的健康人口劳动能力为“丧劳” 9.五保户(含五保贫困户、五保农户)存在年龄在16-60周岁的劳动力 ; (五)贫困户、贫困人口重复 (1)姓名不一致,如:王思妍,王恩妍 (2)性别不一致 (3)文化程度不一致 (4) …… ; (五)贫困户、贫困人口重复 (5)多省交界处,户籍地混乱 ; (6)仅“识别标准”不同 (7)仅“家庭人员数量”不同 (8)家庭成员互为户主 (9)拆户分户情况 (10)嫁娶、改嫁,户口迁移情况; (一)后台批量处理 1.指标值含有空字符 2.指标值含有特殊字符 3.非指标体系代码选项 4.指标值间存在逻辑关系, 如错误出生日期可从正确身份证中提取 并做更新处理; (二)前台核实修改 1.提取待清洗数据逐级下发 2.基层扶贫部门核实修改 (三)前台采集补录 1.将应填未填项逐级下发 2.基层扶贫部门采集录入 ; (一)清洗内容 1.证件号码重复 2.证件号码有误 3.证件类型值异常 4.证件类型与证件号码不符; (二)清洗规则 1.证件号码重复 2.证件号码包含空字符 3.证件号码位数非15、18、20位 4. 18位身份证是否符合校验规则 5. 20位残疾证是否符合校验位及残疾类型、等级规则 6.证件

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档