数据处理与数据清洗.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么是数据处理? 数据处理有广义和狭义两种理解,广义的理解,所有的数据采集、存储、加工、分析、挖掘和展示等工作都可以叫做数据处理;而狭义的数据处理仅仅包括从存储的数据中通过提取,筛选出有用数据,对有用数据进行加工的过程,是为数据分析和挖掘的模型所做的数据准备工作。 一般意义上讲的数据处理是狭义的定义,即对数据进行增、删、改、查的操作。在目前大数据的背景下,我们数据处理工作往往是通过技术手段来实现,比如说利用数据库的处理能力,对数据进行增加、删除、改动、查询等处理。 在实践中,数据处理工作中最大的是对数据进行清洗,即对不清洁的数据进行清洁化的工作,让数据更加规范,让数据的结构更加合理,让数据的含义更加明确,并让数据处在数学模型的可用状态。 数据之“脏” 数据的“脏”是一个比喻的说法。我们把数据记录不规范、格式错误、含义不明确等叫做数据的“脏”,包括几种典型的形式。 (1)数据不规范的情况。 比如姓名,同样是张三,有的地方记录为“张三”,有的地方记录为“张 三”,为了让两个字的姓名和三个字的姓名都有相同的长度,中间添加了空格。这种情况同样发生在地址字段里,比如说“北京”、“北京市”、“北 京”,虽然都是指北京,于我们人来讲很容易识别,但对计算机来讲,这三个写法代表着三个不同的值,我们需要通过建立映射关系的方式,将数据记录进行统一。 常见的数据不规范的情况还包括日期格式的问题。日期格式常见的几种记录方法如下: 2015/10/20 2015-10-20 2015年10月20日 10/20/2015 Oct. 20, 2015 October 20, 2015 2015.10.20 每个人都有不同的喜好和记录方法,这给计算机识别造成了很大的困难,一个公司的所有数据都应该有一个明确的规定,统一数据的录入格式。 (2)数据不一致的情况 数据不一致的情况往往是没有遵循我们单维数据表的原则导致的。因为同一条信息记录在不同的数据表甚至数据库中,当我们对数据信息进行更改之后,因为没有同时对所有的记录点都做相同的更改而导致的数据不一致的情况。为了避免这种情况,我们引入了“单维数据表”的概念,强调了公司内部同样一条信息,只能记录在一个地方,当其他地方需要的时候,通过索引查询的方式来保证数据的一致性,在任何数据表中存在其他表中数据来源的时候,都要在查询输出时进行“同步”更新。 数据的一致性虽然技术上比较容易实现,但在企业实践中却有着巨大的难度。采购部门会录入供应商的信息,而财务部需要向供应商付款,所以也会保留供应商相关的信息数据,而采购部门和财务部分分属不同的职能部门,财务部门也会采集一部分供应商财务相关信息,包括银行信息、账号信息、税务信息、工商信息等,如果发生变化,比如说法人变更、业务变更、企业性质变更等,财务会对其数据进行更新;采购部也会对供应商的信息进行采集并登录相关的信息管理系统。如果采购的管理信息系统能够同财务所使用的管理信息系统对接且能够把同条信息能够关联或者建立索引关系,则该公司的数据一致性比较容易保障。但如果两个都采用了不同的系统,就容易导致数据不一致的情况。而这种情况在大多数公司种都存在,且很严重。 (3)标准不统一的问题 我们对一些事物的描述方法需要建立统一的标准,从而让计算机可以有效地对文本数据进行处理。 举一个具体的例子。比如说导致产品出现质量问题的原因,多数情况下是手工录入的,同样的原因,不同的数据录入的描述会有不同。同样是因为电压不稳导致的产品质量问题,有人会录入为“电压不稳”,有人会录入为“电流不稳定”,有人录入为“供电问题”,有人录入为“缺少稳压设备”,有人录入为“供电负载异常”。。。如果没有统一的规范,我们在统计汇总时会产生上千个导致产品品质问题的原因。这给数据解读和分析,以及寻找改善措施带来很大的麻烦。 这就需要数据库管理员根据公司的实际情况,将该类原因进行归类,然后设定几个类别,由员工在系统中进行选择,而不是让他们手工录入。一般情况下,出现最多的前10名原因能够覆盖90%以上的情况,在录入中,先让员工选择,然后留出一个“其它”,当员工选择其它的时候再进行录入,这样就能够有效规范这种数据的录入标准化问题。 根据大多数人的记忆习惯,在经常使用的范围内,一般能够轻松记住7个左右的信息,因此,我们尽可能把这些导致质量的原因找出最常见的7个,对录入数据的人进行培训,他们基本能够记住这7个,特别是在面对教育水平不高的一线工人的时候。 (4)格式不标准的问题 所谓的格式不标准的问题是在数据录入时,使用了错误的格式。比如说,录入日期时,因为格式不规范,计算机不能自动识别为日期格式,出现了各种个样的文本;比如说录入数值时采用的中文字符格式,用了全角字符等,A和A是不同的,1和1是不同的,0和O是不同的等;有些数据格式要求英文

文档评论(0)

_______ + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档