- 64
- 0
- 约8.23千字
- 约 42页
- 2017-10-16 发布于浙江
- 举报
第11章 数据预处理与可视化技术 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 数据预处理与可视化技术 数据预处理是数据分析、数据挖掘等工作的前期准备,用以确定数据挖掘的类型,提高挖掘质量。融合数据挖掘和数据可视化两个学科,可以用直观、有效的方式来解释和评估挖掘对象、挖掘任务以及挖掘结果。本章介绍如下几个方面的内容: 数据清理 数据集成与转换 数据归约与浓缩 概念分层 过程可视化 数据可视化 结果可视化 数据清理 数据清理(Data Cleaning)能够填补空缺数据,平滑噪声,发现孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 一、 填补空缺值 海量数据集中可能会“遗漏”某些数据,要分析这种不完整的数据,就必须通过推导来填充这些空缺值。 必须权衡估计数据带来的风险和数据空缺造成的误解。 缺省值处理方法: 1. 忽略元组:如果一个元组中空缺值的属性较多,可以忽略这个元组。 2. 人工填写空缺值:这种方法很费时。 3. 用全局常量填充空缺值:用同一个常数(如“Unknown”或-∞)替换空缺的属性值。 4. 用属性的平均值填充空缺值 5. 用同类样本的平均值填补空缺值 6. 用最可能的值填充空缺值:用回归分析或决策树归纳等方法确定最有可能的值。 7. 用最近邻方法填补空缺值 数据清理 二、消除噪声数据 噪声(Noise)是测量中的随机错误或偏差。 几种常用方法: 1. 分箱(Binning):通过考察“邻居”(即周围的值)来平滑存储的数据值。它将存储的值分布到一些箱中,可按均值、中位数等平滑。分箱方法只参考相邻的值,是对数据的局部平滑。 一般来说,宽度越大,平滑效果越好。箱也可以是等宽的,每个箱的取值区间是一个常量。 数据清理 2. 聚类(Clustering):通过聚类形成一些簇,落在簇之外的对象按关注程度划分,如果关注该对象就称为孤立点,否则视为噪声。所以聚类可以发现噪声。 3. 计算机与人工检查结合:计算机将差异程度大于阈值的模式记录到一个表中,通过审查表中的模式可以识别真正的噪声。 4. 回归(Regression):用由数据拟合的函数(如回归函数)来平滑数据。 三、实现数据一致性 对于数据集中存在的不一致数据,可以参照其他资料(如纸上的记录)人工地加以更正,还可以使用用来纠正编码不一致问题的程序,也可以用知识工程工具来检测不符合条件约束的数据。 数据集成与转换 海量数据集往往涉及多个数据源,因此,在数据挖掘之前需要合并这些数据源存储的数据。 如果原始数据的形式不适合数据挖掘算法需要,就要进行数据变换。 一、数据集成 数据挖掘对象可能来自多个数据源,包括不同形式的数据库、数据立方体或一般文本文件等。数据集成是将这些数据源中的数据集中存放在一个统一的数据存储(如数据仓库)中。 通用标识符问题 隔离,保证为实体的每次出现指派一个唯一标识符; 调和,确认相同的实体并将该实体的各次出现合并在一起。 冗余问题。(冗余属性和冗余元组) 不一致的属性或伪命名也可能导致数据冗余。利用相关分析可以发现一些冗余问题。 将多个数据源中的数据集成起来,能够减少或避免数据的冗余和不一致性,这将有助于提高数据挖掘的精度和效率。 数据集成与转换 二、数据转换 目的是使数据和将来要建立的模型拟合得更好,形成适合挖掘的形式。 数据转换主要涉及如下内容: 1. 平滑:去掉数据中的噪声。 2. 聚集:对数据进行汇总和聚集。为多粒度数据分析构建数据立方体。 3. 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 4. 属性构造:构造新属性并将其添加到属性集中有助于数据挖掘过程。 5. 规范化:通过将属性数据按比例缩放,使之落入一个小的特定区间(如0.0~1.0)来规范属性。 (1) 最小-最大规范化 设 minA 和maxA 分别为属性A的最小和最大值。 (11.1) 将A的值ν映射到区间[new_minA, new_maxA ]中的ν。 最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的线性关系。 数据集成与转换 (2) z-score规范化(零-均值规范化) 把属性A的值ν基于A的均值和标准差规范化为ν‘。
您可能关注的文档
- 设计研究岗位职责.doc
- 社会的黑难掩红色的心—读《红与黑》有感.doc
- 社会工作师初级实务试题及答案.doc
- 社会工作者 综合能力-初级.ppt
- 社会契约与文明社会.doc
- 社会工作者初级考试综合能力模拟试卷1-附答案.doc
- 社会工作者初级综合能力模拟试卷-附答案.doc
- 申泮文-近代化学导论-第1章-绪论.ppt
- 申泮文-近代化学导论-第0章-课前的话.ppt
- 申泮文-近代化学导论-第3章-2路易斯电子配对杂化价层.ppt
- 腾讯安全沙龙:红队视角下的海外SRC猎场:战略、战术与突破.pdf
- 【icap】ETS的范围扩展:设计和政策挑战.docx
- bcg -美国最高法院关于关税的裁决对你的企业意味着什么 What Does the US Supreme Court Ruling on Tariffs Mean for Your Business.pdf
- 2026届甘肃兰州市高三下学期第一次模拟考试历史试卷(扫描版,含答案).docx
- bcg -零售银行如何让人工智能代理发挥作用 How Retail Banks Can Put AI Agents to Work.pdf
- 住宅项目规范解读(GB 55038-2025) -培训 - 房地产-2025.docx
- 盘扣式脚手架工程量自动计算表 -培训 -房地产-2025.pdf
- 广东省汕头市2024-2025学年高三下学期第一次模拟考试英语学试题(含答案).docx
- 品牌研究+_+2025+CAPSE中国航司品牌榜单.pdf
- 【银河专题】如何看待豆粕内外价差关系.pdf
原创力文档

文档评论(0)