- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据预处理概述.pptx
2021-7-18
4. 数据预处理
2021-7-18
1
为什么要进行数据挖掘?
现实世界的数据是脏的
不完整: 缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据
e.g., occupation=“ ”
有噪声: 包含错误的数据或异常值
e.g., Salary=“-10”
不一致: 在代码或者名字中存在矛盾或不一致
e.g., Age=“42” Birthday=“03/07/1997”
e.g., Was rating “1,2,3”, now rating “A, B, C”
e.g., discrepancy between duplicate records
2021-7-18
2
为什么数据预处理重要?
No quality data, no quality mining results!
Quality decisions must be based on quality data
e.g., duplicate or missing data may cause incorrect or even misleading statistics.
Data warehouse needs consistent integration of quality data
Data extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse
2021-7-18
3
2021-7-18
4
数据预处理的主要内容:
2021-7-18
数据预处理的主要内容
一、原始数据的表述
二、数据清理
三、数据变换
四、元组的归约
五、属性的归约
2021-7-18
5
数据样本是数据挖掘过程的基本组成部分。
一、原始数据的表述
2021-7-18
6
每个样本都用几个特征来描述,每个特征有不同类型的值。
2021-7-18
2021-7-18
常见的数据类型有:数值型和分类型。
数值型包括实型变量和整型变量
注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。
7
2021-7-18
2021-7-18
一个有两个值的分类型变量:
分类型变量的两个值可以平等或不平等。
原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;
而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。
8
2021-7-18
2021-7-18
例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。
特征值 编码
黑色 1000
蓝色 0100
绿色 0010
褐色 0001
9
2021-7-18
2021-7-18
变量的分类:连续型变量和离散型变量。
连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。
离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。
注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。
10
2021-7-18
2021-7-18
与时间有关的数据分类:
静态数据——数据不随时间变化而变化
动态数据(时间数据)——随时间变化而变化的属性。
注:大多数数据挖掘方法更适用于静态数据,在对动态数据进行挖掘时要有特殊的考虑和预处理。
11
2021-7-18
二、数据清理——缺失值的填补
2021-7-18
对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例也非常少,这样就面临数据的缺失问题。
应用数据挖掘方法之前如何处理这样现象,最简单的办法是减少数据集,去掉所有有缺失值的样本。
如果我们不想扔掉这些有缺失值的样本,就必须找到它们的缺失值,用什么方法来实现呢?
填补缺失值。
12
2021-7-18
1、单一填补法
(1)均值填补法。
均值填补法是根据与含缺失值的目标属性相关性高的其它属性的信息将样品分为若干组,然后分别计算各组目标属性的均值,将各组均值作为组内所有缺失项的填补值。
均值填补的优点是操作简便,并且可以有效地降低其点估计的偏差。
但它的缺点也比较突出:首先,由于同组中的缺失值由同一个值填补,填补结果歪曲了目标属性的分布;其次,也导致在均值和总量估计中对方差的低估。
2021-7-18
13
例:
2021-7-18
14
均值填补:
2021-7-18
15
2021-7-18
(2)随机填补法。
随机填补法是采用某种概率抽样的方式,从有完整信息的元组中抽取缺失数据的填补值的方法。
它虽然能够避免均值填补中填补值过于凝集以及容易扭曲
文档评论(0)