- 11
- 0
- 约9.76千字
- 约 57页
- 2016-08-05 发布于湖北
- 举报
费高雷
通信与信息工程学院
2015年春季
第3章 数据预处理
2
第3章: 数据预处理
数据预处理:概述
数据清理
数据集成
数据归约
数据变换和数据离散化
小结
3
数据质量:为什么要对数据预处理?
数据质量的评价: 多维角度
准确性: correct or wrong, accurate or not
完整性: not recorded, unavailable, …
一致性: some modified but some not, dangling, …
时效性: 及时更新的?
可信性: 反映有多少数据是用户信赖的?
可解释性: 反映数据是否容易理解?
4
数据预处理的主要任务
数据清理
填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据不一致
数据集成
多个数据库, 数据立方体, 或文件的集成
数据归约
得到数据集的简化,它小得多,但能够产生同样的分析结果
数据变换
规范化
数据离散化和概念分层产生
5
第2章: 数据预处理
数据预处理:概述
数据清理
数据集成
数据归约
数据变换和数据离散化
小结
6
数据清理
现实世界的数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误
数据缺失:缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据
e.g., 职业=“ ” (missing data)
噪声:包含错误或孤立点
e.g., Salary=“?10” (an error)
不一致:编码或名字存在差异, e.g.,
Age=“42”, Birthday=“03/07/2010”
以前的等级 “1, 2, 3”, 现在等级 “A, B, C”
重复记录间的差异
人为有意的(e.g.,默认值)
Jan. 1 as everyone’s birthday?
7
如何处理缺失数据?
忽略元组: 缺少类别标签时常用(假定涉及分类—不是很有效,当每个属性的缺失百分比变化大时
手工填写缺失数据: 乏味+费时+不可行 ?
自动填充(采用一些规则)
一个全局常量 : e.g., “unknown”, a new class?!
使用属性的中心度量(如均值或中位数)
与给定元组同一类的所有样本的属性均值: 更巧妙
最可能的值: 基于推理的方法,如回归、贝叶斯公式或决策树
8
噪声数据
噪声: 被测量的变量的随机误差
不正确的属性值可能由于
错误的数据收集工具
数据录入问题
数据传输问题
技术限制
不一致的命名惯例
其他需要数据清理的问题
重复记录
数据不完整
不一致的数据
9
如何处理噪音数据?
分箱:
排序数据,分布到等频/等宽的箱/桶中
箱均值光滑、箱中位数光滑、箱边界光滑, etc.
聚类
检测和去除 离群点/孤立点
计算机和人工检查相结合
人工检查可疑值 (e.g., deal with possible outliers)
回归
回归函数拟合数据
10
分箱:简单的离散化方法
等宽度剖分:
分成大小相等的n个区间: 均匀网格
若A和B是 属性的最低和最高取值, 区间宽度为: W = (B –A)/N.
孤立点可能占据重要影响
倾斜的数据处理不好
等频剖分/等深:
分成n个区间, 每一个含近似相同数目的样本
Good data scaling
类别属性可能会非常棘手.
11
Binning Methods for Data Smoothing
* Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
12
聚类分析
13
Regression
x
y
y = x + 1
X1
Y1
Y1’
14
数据清理作为一个过程
数据偏差检测
使用元数据(数据性质的知识)(e.g.,定义域, 每个属性可接受值, 统计分布,IQR等)
检查字段过载 :新属性的定义挤进已经定义的属性的未使用部分
您可能关注的文档
最近下载
- JBL Bar Studio影霸系列说明书.pdf VIP
- 一汽解放J6重卡汽车维修手册.pdf VIP
- 第六次全国幽门螺杆菌诊治共识.pptx VIP
- 基于年龄结构的乙肝流行病模型构建与稳定性的深度剖析.docx
- 数学六年级上册口算脱式计算解方程应用题每日一练(共30天).docx VIP
- 第9课《学会倾听》教案-2025-2026学年第二学期三年级道德与法治统编版下册.docx
- 五年级下册英语教案-Module 1 Unit 1|外研社(三起).docx VIP
- 基于Python的南京二手房数据可视化分析的设计与实现.docx VIP
- 初中英语综合时态练习13352.doc VIP
- 钉钉杯大数据挑战赛银行卡电信诈骗危险预测.pdf VIP
原创力文档

文档评论(0)