- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 数据预处理;目录;数据预处理;3.1 数据预处理:概览;数据的不精确性;数据的不完整性;不一致的数据;数据的时效性;数据的可信性和可解释性;3.1.2 数据预处理的主要任务;数据清洗;数据聚合;;数据删减;;数据转换;;多种预处理的形式;预处理的作用;3.2 数据清洗;2 手工填写缺失值。通常,这种方法耗时,并且对一个有很多缺失值的大型数据集来说并非可行。
3 使用一个全局常数来填写缺失值。可以将所有缺失的属性值用同一个常数,例如标签“Unknown”或者”-∞”来表示。如果缺失值被“Unknown”替换,挖掘算法可能错误的认为形成了一个有趣的概念,因为他们都有一个共同的值”Unknown”.因此,即使这种方法很简单,却也并非不会出错。
4 使用一个属性的中心性测量来填写缺失值。对于标准(对称的)数据分布,可以使用平均值,对偏斜数据分布可以使用中值。;;;3.2.2 噪声数据;排好序的数据被分布到一系列的“桶”,或箱子中。因为装箱方法参考值的邻居,所以使用的是局部平滑。
有若干种装箱技术:
1)等频装箱。例如,价格属性先被排序,然后被分割到箱子的大小为3的等频箱子中。
2)箱子均值平滑。箱子中的每个值被箱子的均值替代。
3)箱子中值平滑。每个箱子值被箱子中值取代。
4)箱子边界平滑。箱子值被最靠近的边界值(最大值或最小值)取代。
箱子的宽度也大,平滑效果也越显著。另外,等宽度的箱子,即每个箱子间隔是个相同的常数也常被使用。箱子技术也是一种数据离散化的技术。;;4、其他方法:
很多数据平滑技术也适用于数据离散化和数据削减。例如,装箱技术削减了每个属性的不同值的个数。在基于逻辑的数据挖掘方法例如决策树中,因为需要不断重复的在排序数据上做值的比较,因此这相当于是数据削减。
概念分层是数据离散化的一种,可以用来做数据平滑。一个概念分层例如价格,可以映射真实的价格值到便宜、中等、昂贵上。这样削减了挖掘过程需要处理的数据值的个数。一些分类方法有内置的数据平滑机制。;3.2.3 数据清洗作为一个过程; “那么,如何进行不一致检测呢?”
使用任何你事先已经知道的关于数据的相应属性的知识,这种知识被称为“元数据”。
例如,数据的类型和每个属性的域是什么?每个属性的可接受的值是什么?基本的统计数据描述(Section 2.2)对于获取数据趋势和鉴别异常很有用。例如,寻找均值,中值和众数。
数据是对称还是偏斜的?值的取值范围是?所有的值都落在期望的区间吗?每个属性的标准差是多少?值在距离均值两倍标准差的范围外的属性值可能是潜在离群值。属性之间有已知的依赖关系吗?
在这个步骤,你可能需要写下你自己的脚本或者使用后面将要讨论的一些工具。通过这样的方式,你可以找到噪声,离群点,需要察觉的异常值。; 作为一个数据分析师,你需要寻找不一致的编码以及任何不一致的数据表达(比如,2010/12/25 和 25/12/2010 )。
字段过载是另一个错误源,常常是设计者将新属性的定义挤进一个已经定义好的属性未使用的位(bit)。(例如,一个属性的值范围是32位二进制中的31位,剩1个位未使用)。
数据还需要使用唯一性规则,连续性规则和空值规则来检查。唯一值规则是给定属性的每一个值必须和该属性的其他所有值不同。连续性规则是在属性的最小值和最大值之间不能有缺失值(例如,检查号码)。空值规则指明了空白、提问标记、特殊字符或其他的字符串可能指代空值条件(如一个给定属性的值不可获得),以及这样的值如何被处理。; 空值规则应当指明如何记录空值条件,例如,存储数值属性的0值,字符属性的空白,或者其他可能使用的习惯(如,像“不知道”或者“?”的输入应当被转换成空白)。
有一系列不同的商业工具可以用来做不一致性检测。数据洗擦工具使用简单的领域知识(如邮政地址和拼音检查的知识)来检测和修正数据中的错误。这些工具在清洗多种来源的数据时依赖于语法解析和模糊匹配技术。
数据审核工具通过分析数据发现规则和关系来寻找不一致性,以及检查违反了条件的数据。
它们是数据挖掘工具的变体。它们可能使用统计分析来发现关联,或者聚类发现离群点。也可能利用2.2节介绍的基本统计数据描述方法。; 一些数据不一致性可以通过使用外部参考来人工改正。例如,数据输入的错误可以通过纸上跟踪的方式来改正。
绝大部分的输错,都需要进行数据转换。即一旦我们发现了不一致性,常常需要定义和应用转换来修正。
商业工具在数据转换步骤可以起到作用。数据迁移工具允许做简单的转换例如将字符串“gender”变为”sex”.
ETL(抽取/转换/加载工具)允许用户规定使用图形用户接口(GUI) 来转换。
这些工具常常只支持有限的转换集,因此,我们还常常选择编写定制的脚本来做数据清洗的工作。;;3.3
文档评论(0)