- 167
- 0
- 约1.85千字
- 约 10页
- 2017-08-29 发布于江苏
- 举报
第4章 数据预处理
4.1数据预处理概述
4.1.1原始数据中存在的问题
1. 不一致
2. 重复
3. 不完整
4. 含噪声
5. 维度高
6. 数据不平衡
4.1.2数据预处理的方法和功能
1. 数据清洗(data cleaning)
2. 数据集成(data integration)
3. 数据变换(data transformation)
4. 数据归约(data reduction)
4.2数据清洗
4.2.1属性选择与处理
1. 尽可能赋予属性名和属性值明确的含义
2. 统一多数据源的属性值编码
3. 处理唯一属性
4. 去除重复属性
5. 去除可忽略字段
6. 合理选择关联字段
4.2.2空缺值处理
1. 忽略该记录
2. 去掉属性
3. 写空缺值
4. 使用默认值
5. 使用属性平均值
6. 使用同类样本平均值
7. 预测最可能的值
4.2.3噪声数据处理
1. 分箱(binning)
2. 聚类(clustering)
图4-1用聚类方法去掉噪声
3. 回归(regression)
4.2.4不平衡数据的处理
4.3数据集成和变换
4.3.1数据集成
1. 模式匹配
2. 数据冗余
3. 数据值冲突
4.3.2数据变换
1. 平滑(smoothing)
2. 聚集(clustering)
3. 数据概化(generalization)
4. 规范化(normal
您可能关注的文档
最近下载
- 纺织效果技术数据表文案.pdf VIP
- 中职德育课教学大纲.doc VIP
- 2025年四川省成人高考高起专语文考试真题及答案.docx VIP
- 航天制造对智能装备的需求与展望(31页 PPT).pptx VIP
- 人教版九年级全一册英语全册教案(完整版)教学设计含教学反思.docx VIP
- 于康震副部长在 十五五 海洋渔船双控和资源总量管理责任.docx VIP
- 第15课+开始全面建设小康社会(课件)-2025-2026学年八年级历史下册深耕新教材提效教学课件.pptx VIP
- 地理学科核心素养视角下高中地理教学策略优化研究论文.docx
- 中小学生守则知识竞赛题.docx VIP
- 核心素养指引下高中地理有效教学策略研究 论文.docx VIP
原创力文档

文档评论(0)