- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘课件 第十一章 数据预处理与可视化技术
第11章 数据预处理与可视化技术 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 数据预处理与可视化技术 数据预处理是数据分析、数据挖掘等工作的前期准备,用以确定数据挖掘的类型,提高挖掘质量。融合数据挖掘和数据可视化两个学科,可以用直观、有效的方式来解释和评估挖掘对象、挖掘任务以及挖掘结果。本章介绍如下几个方面的内容: 数据清理 数据集成与转换 数据归约与浓缩 概念分层 过程可视化 数据可视化 结果可视化 数据清理 数据清理(Data Cleaning)能够填补空缺数据,平滑噪声,发现孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 一、 填补空缺值 海量数据集中可能会“遗漏”某些数据,要分析这种不完整的数据,就必须通过推导来填充这些空缺值。 必须权衡估计数据带来的风险和数据空缺造成的误解。 缺省值处理方法: 1. 忽略元组:如果一个元组中空缺值的属性较多,可以忽略这个元组。 2. 人工填写空缺值:这种方法很费时。 3. 用全局常量填充空缺值:用同一个常数(如“Unknown”或-∞)替换空缺的属性值。 4. 用属性的平均值填充空缺值 5. 用同类样本的平均值填补空缺值 6. 用最可能的值填充空缺值:用回归分析或决策树归纳等方法确定最有可能的值。 7. 用最近邻方法填补空缺值 数据清理 二、消除噪声数据 噪声(Noise)是测量中的随机错误或偏差。 几种常用方法: 1. 分箱(Binning):通过考察“邻居”(即周围的值)来平滑存储的数据值。它将存储的值分布到一些箱中,可按均值、中位数等平滑。分箱方法只参考相邻的值,是对数据的局部平滑。 一般来说,宽度越大,平滑效果越好。箱也可以是等宽的,每个箱的取值区间是一个常量。 数据清理 2. 聚类(Clustering):通过聚类形成一些簇,落在簇之外的对象按关注程度划分,如果关注该对象就称为孤立点,否则视为噪声。所以聚类可以发现噪声。 3. 计算机与人工检查结合:计算机将差异程度大于阈值的模式记录到一个表中,通过审查表中的模式可以识别真正的噪声。 4. 回归(Regression):用由数据拟合的函数(如回归函数)来平滑数据。 三、实现数据一致性 对于数据集中存在的不一致数据,可以参照其他资料(如纸上的记录)人工地加以更正,还可以使用用来纠正编码不一致问题的程序,也可以用知识工程工具来检测不符合条件约束的数据。 数据集成与转换 海量数据集往往涉及多个数据源,因此,在数据挖掘之前需要合并这些数据源存储的数据。 如果原始数据的形式不适合数据挖掘算法需要,就要进行数据变换。 一、数据集成 数据挖掘对象可能来自多个数据源,包括不同形式的数据库、数据立方体或一般文本文件等。数据集成是将这些数据源中的数据集中存放在一个统一的数据存储(如数据仓库)中。 通用标识符问题 隔离,保证为实体的每次出现指派一个唯一标识符; 调和,确认相同的实体并将该实体的各次出现合并在一起。 冗余问题。(冗余属性和冗余元组) 不一致的属性或伪命名也可能导致数据冗余。利用相关分析可以发现一些冗余问题。 将多个数据源中的数据集成起来,能够减少或避免数据的冗余和不一致性,这将有助于提高数据挖掘的精度和效率。 数据集成与转换 二、数据转换 目的是使数据和将来要建立的模型拟合得更好,形成适合挖掘的形式。 数据转换主要涉及如下内容: 1. 平滑:去掉数据中的噪声。 2. 聚集:对数据进行汇总和聚集。为多粒度数据分析构建数据立方体。 3. 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 4. 属性构造:构造新属性并将其添加到属性集中有助于数据挖掘过程。 5. 规范化:通过将属性数据按比例缩放,使之落入一个小的特定区间(如0.0~1.0)来规范属性。 (1) 最小-最大规范化 设 minA 和maxA 分别为属性A的最小和最大值。 (11.1) 将A的值ν映射到区间[new_minA, new_maxA ]中的ν。 最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的线性关系。 数据集成与转换 (2) z-score规范化(零-均值规范化) 把属性A的值ν基于A的均值和标准差规范化为ν‘。
您可能关注的文档
- 抗氧化组合ACE.ppt
- 折弯机成型展开尺寸的快速计算.doc
- 抚宁县洋河口橡胶坝工程冬季施工组织设计.doc
- 抗胆碱能药物治疗COPD的合理性-new.ppt
- 护患沟通技巧模板_图文.ppt
- 护手霜包装系统设计.doc
- 抚州市产业结构与就业结构协调发展研究_基于结构偏离度的分析.docx
- 护理学导论各章节复习题.doc
- 护理学本科健康评估.ppt
- 护患沟通方法技巧与护患纠纷案例培训讲解_图文.ppt
- 2025年一建《建设工程经济》冲刺试卷.docx
- 2025年一建《建设工程项目管理》专项卷.docx
- 深度解析(2026)《GBT 31960.2-2015电力能效监测系统技术规范 第2部分:主站功能规范》.pptx
- 深度解析(2026)《GBT 31960.4-2015电力能效监测系统技术规范 第4部分:子站功能设计规范》.pptx
- 校园安全教育课件(共23张PPT.pptx
- 在组织生活会上的对照检查发言材料(含批评与自我批评)范文.docx
- 深度解析(2026)《GBT 31908-2015电弧焊和等离子焊接、切割用钨电极》.pptx
- 深度解析(2026)《GBT 31916.3-2018信息技术 云数据存储和管理 第3部分:分布式文件存储应用接口》.pptx
- 深度解析(2026)《GBT 31928-2015船舶用不锈钢无缝钢管》.pptx
- 校园安全教育课件(共23张PPT).pptx
最近下载
- 内浮顶罐安全管理规范.pdf VIP
- 最新子宫颈高级别上皮内病变管理的中国专家共识2022(完整版).pdf VIP
- 2025年建筑工程副高面试题及答案.docx VIP
- 2023年嘉兴学院计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- 四川省德阳市2023-2024学年高一下学期教学质量监测 化学试卷含答案.docx VIP
- 流量积算仪瞬时流量不确定度评定与流量理论值的误差分析.pdf
- CASS编码、图层、图块名称、属性对照表.pdf VIP
- 2023年浙江万里学院计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 《中国药典》2020年版 二部 注射用水.pdf VIP
- 沈阳建筑大学《计算机网络》2025 学年第二学期期末试卷.pdf VIP
原创力文档


文档评论(0)