- 105
- 0
- 约6.06千字
- 约 55页
- 2017-04-12 发布于湖北
- 举报
数据预处理方法的研究与一些改进的建议
数据预处理的必要性
数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤。
不完整、含噪声的和不一致的数据是现实世界大型数据库或数据仓库的共同特点。
数据的预处理能有效的提高数据质量,节约大量的时间和空间。
一些比较成熟的算法对其处理的数据集合一般有一定的要求。
数据预处理的常规方法
1.数据清洗
去掉噪声和无关数据
2.数据集成
将多个数据源中的数据结合起来存放在一个一致的数据存储中
3.数据变换
把原始数据转换成为适合数据挖掘的形式
4.数据归约
主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等
数据清洗——处理空缺值
数据并不总是完整的
在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值
引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据应为得不到重视而没有被输入
数据清洗——处理空缺值
空缺值要经过推断而补上
1.忽略该记录
2.去掉属性
3.手工填写空缺值
4.使用默认值
5.使用属性平均值
6.使用同类样本平均值
7.预测最可能的值
噪声数据的处理——分箱
分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
箱子:按照
您可能关注的文档
- 数据库检索策略.ppt
- 数据库酒店管理系统.doc
- 数据库开发过程.doc
- 数据库考勤管理系统.doc
- 数据库课程设计旅行社管理信息系统.doc
- 数据库课程设计---企业客户信息管理系统.doc
- 数据库课程设计学生考勤系统.doc
- 数据库课程设计之留言板.doc
- 数据库课后练习及答案.doc
- 数据库课后习题.docx
- 2024届四川省内江市高中高三上学期第一次模拟考试文科综合试题含答案(OCR).pdf
- 2024届内蒙古高三上学期第二次统一考试文综试题含答案(OCR).pdf
- 2024届河北省部分重点高中高三上学期学业水平选择性考试模拟数学试题含答案(OCR).pdf
- 2024届湖南省邵阳市武冈市高三上学期期中考试地理试题含答案(OCR).pdf
- 2024届河南省许平汝名校高三上学期期中联考历史试题含答案(OCR).pdf
- 2024届河北省部分重点高中高三上学期学业水平选择性考试模拟地理试题含答案(OCR).pdf
- 2024届河南省许平汝名校高三上学期期中联考政治试题含答案(OCR).pdf
- 2024届河北省部分重点高中高三上学期学业水平选择性考试模拟英语试题含答案(OCR).pdf
- 2024届辽宁省北镇市第二高级中学、第三高级中学高三上学期第四次月考英语试题含答案(OCR).pdf
- 2024届山东省济宁市第一中学高三上学期12月月考英语试题含答案(OCR).pdf
最近下载
- 2025年红塔集团笔试行测试卷.doc VIP
- (高清版)DB13∕T 1659-2012 美国白蛾防治技术规范.pdf VIP
- 历年大学专升本考试护理专业真题(附答案).docx VIP
- 4动中通移动卫星通信站系统设计方案..doc VIP
- 红塔集团笔试考试模拟试题.doc VIP
- 清洁生产 教学课件 作者 曲向荣清洁生产概述第2章.PPT VIP
- (高清版)DB35∕T 1906-2020 高渗透改性环氧树脂防水防腐涂料通用技术条件.pdf VIP
- 黑热病考试题及答案.doc VIP
- 2025年经济师考试旅游经济高级经济实务试卷与参考答案.docx VIP
- T∕BCAT0001-2021北京市安装工程标识标准.docx
原创力文档

文档评论(0)