- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据清洗
1.基本概念
数据清洗从名字上也看的出就是把脏的洗掉,指发现并纠正数据文件中
可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因
为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽
取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之
间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为脏数据。我们
要按照一定的规则把脏数据洗掉,这就是数据清洗。而数据清洗的任务是过滤
那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由
业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的
数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是
由计算机而不是人工完成。
折叠残缺数据
这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名
称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据
过滤出来,按缺失的内容分别写入不同 Excel 文件向客户提交,要求在规定的时间
内补全。补全后才写入数据仓库。
折叠错误数据
这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直
接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一
个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全
角字符、数据前后有不可见字符的问题,只能通过写 SQL 语句的方式找出来,然后
要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错
误会导致 ETL 运行失败,这一类错误需要去业务系统数据库用 SQL 的方式挑出来,
交给业务主管部门要求限期修正,修正之后再抽取。
折叠重复数据
对于这一类数据--特别是维表中会出现这种情况--将重复数据记录的所有字
段导出来,让客户确认并整理。
数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,
解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入
Excel 文件或者将过滤数据写入数据表,在 ETL 开发的初期可以每天向业务单位发
送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依
据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行
验证,并要用户确认。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有
用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管
理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行
动。
类型
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析
以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而
验证性数据分析则侧重于已有假设的证实或证伪。
探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方
法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基
(John Tukey)命名。
定性数据分析又称为定性资料分析、定性研究或者质性研究资料分析
,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库
知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步
骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属
于 Association rule learning)的信息的过程。数据挖掘通常与计算机科学有
关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经
验法则)和模式识别等诸多方法来实现上述目标。
折叠数据挖掘的基本步骤
数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会
有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差
异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所
影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异
性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对
于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地
跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。
数据挖掘完整的步骤如下:
①理解数据和数据的来源(understanding)。
②获取相关知识与技术(acquisition)。
③整合与检查数据(integration and checking)。
④去除错误或不一致的数据(data cleaning)。
⑤建立模型
原创力文档


文档评论(0)