第3章数据的清洗与预处理.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章数据的清洗与预处理

第 3章 数据的清洗与预处理 数据清洗从名字上也看得出就是把“脏东西洗掉”,指发现并纠正数据文件中可识别的 错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等。原始数据可能有各 种不同的来源,包括Web服务器的日志、某种科学仪器的输出结果、调查问卷的结果或企 业顾问准备的报告等,这些来源的数据的共同点是:有各种各样的格式、不完整(某些记录 的某些字段缺失)、前后不一致(字段名和结构前后不一)或数据损坏(有些记录可能会因为 种种原因被破坏)等,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这 些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把 “脏数据”“洗掉”,这就是数据清洗。 数据分析人员必须经常清洗这些原始数据,将重复、多余的数据筛选清除,将缺失 的数据补充完整,将错误的数据纠正或删除,或者把它们转化成易于分析的格式,最后 整理成可以进一步加工、使用的数据,降低数据统计过程中的出差率。下面我们介绍如 何进行数据清洗,需要说明的是这里不对处理工具或编程语言做特别介绍,只以Excel 为例进行讲解。 3.1 数 据 处 理   3.1.1 重复数据处理 重复数据处理在数据分析中是非常普遍的,解决的方法有很多。下面是一列产品编号 的数据,如图3.1所示,介绍几个处理重复数据的方法。 一、用COUNTIF函数来识别重复数据 步骤一:选中B2单元格,然后输入函数公式:=COUNTIF(AA,A2)。 步骤二:选中C2单元格,然后输入函数公式:=COUNTIF(A$2A2,A2)。 步骤三:将公式复制到B3C14的所有单元格,效果如图3.2所示。 摇 图3.1摇 产品编号 图3.2摇 利用COUNTIF函数甄别重复值 B列中的结果代表的是每个产品编号出现的次数,所以B列中大于1 的单元格所对 应产品编号即重复值。 C列查找的是第二次重复项,如“A802冶在 C14 中结果是“3冶,代 表了从A2 到A14,“A802冶是第三次重复出现。 因此,C列中等于1 的数即是所有非重 复项。 二、用菜单操作来筛选重复数据 步骤一:选择包含数值数据的单元格区域。 步骤二:在“数据冶选择卡上的“排序和筛选冶组中,单击“高级冶按钮,弹出“高级筛选冶 对话框。 步骤三:选择“将筛选结果复制到其他位置冶选项,在“复制到冶文本框输入 B2 区域, 再勾选“选择不重复的记录冶复选框,单击“确定冶按钮,如图3.3所示。 图3.3摇 利用筛选功能处理重复数据 摇摇摇70摇 摇 CDA数据分析———零基础入门 三、用条件格式标识重复数据 选择“开始冶选项卡,单击“条件格式冶—“突出显示单元格规格冶命令,选择“重复值冶 选项,就可以把重复的数据或所在单元格标为不同的颜色,如图3.4所示。 图3.4摇 用条件格式标识重复数据 四、删除重复数据 1.通过菜单操作删除重复项 步骤一:选择A1 A14 的数据区域。 步骤二:在“数据冶选项卡上的“数据工具冶组中,单击“删除重复项冶命令。 步骤三:在“列冶区域下,选择要删除的列,单击“确定冶按钮。 步骤四:Excel将显示一条消息,指出有多少重复值被删除了,有多少唯一值被保留, 或是否没有删除重复值。 单击“确定冶按钮,即可删除重复项。 2.通过排序删除重复项 步骤一:在图3.2 中选中“第二次重复项冶中任意一个有数据的单元格。 步骤二:选择“开始冶主选项卡,单击“编辑部分冶功能组—“排序和筛选冶—“降序冶命 令,得到了重新排序的数据,其中前三项是重复项,如图3.5所示。 步骤三:删除前三项。 3.通过筛选删除重复项 同样得到如图3.2所示的辅助列后,选中“第二次重复项冶中任意一个有数据的单元 格,然后单击“数据冶选项卡—“排序和筛选冶功能区—“筛选冶命令,在列标签中会出现下拉 菜单,单击下拉菜单,挑出不等于1的数值,单击“确定冶按钮就得到重复项。 最后

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档