- 5
- 0
- 约7.38千字
- 约 56页
- 2018-03-09 发布于浙江
- 举报
[管理学]知识发现与数据挖掘
知识发现的步骤 数据准备? 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取 数据挖掘时,需要 明确任务如数据总结、分类、聚类、关联规则发现、序列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。 数据预处理 为什么要预处理数据? 数据清理 数据集成 数据变换 数据归约 数据离散化 为什么需要数据预处理 ? 在现实社会中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输) 数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员) 数据结构的不一致性 Label的不一致性 数据值的不一致性 为什么需要数据预处理 ? 数据挖掘的数据源可能是多个互相独立的数据源 关系数据库 多维数据库(Data Cube) 文件、文档数据库 数据转换 为了数据挖掘的方便 海量数据的处理 数据归约(在获得相同或者相似结果的前提下) 为什么需要数据预处理? 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须基于高质量的数据基础上 数据仓库是在高质量数据上的集成 数据预处理的主要任务 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减 数据离散化 对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数. 空缺值 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据应为得不到重视而没有被输入 对数据的改变没有进行日志记载 空缺值要经过推断而补上 如何处理空缺值 忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用unknown或-∞ 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法 噪声数据 噪声:一个测量变量中的随机错误或偏差 引起不正确属性值的原因 数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致 其它需要数据清理的数据问题 重复记录 不完整的数据 不一致的数据 如何处理噪声数据 分箱(binning): 首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等 聚类: 监测并且去除孤立点 计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断 回归 通过让数据适应回归函数来平滑数据 数据集成 数据集成: 将多个数据源中的数据整合到一个一致的存储中 模式集成: 整合不同数据源中的元数据 实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no 检测并解决数据值的冲突 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的 可能的原因:不同的数据表示,不同的度量等等 处理数据集成中的冗余数据 集成多个数据库时,经常会出现冗余数据 同一属性在不同的数据库中会有不同的字段名 一个属性可以由另外一个表导出,如“年薪” 有些冗余可以被相关分析检测到 仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。 数据变换 平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集:汇总,数据立方体的构建 数据概化:沿概念分层向上汇总 规范化:将数据按比例缩放,使之落入一个小的特定区间 属性构造 通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度 数据归约的提出 在数据仓库中可能保存TB级的数据,大数据量的数据挖掘,可能需要大量的时间来完成整个数据的数据挖掘。 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减 数据归约的方法 数据立方体聚集:聚集操作作用于立方体中的数据 数据归约的提出 减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维 数据压缩:使用编码机制压缩数据集 数
您可能关注的文档
最近下载
- 企业研发活动统计107-1、107-2报表版整理版(2021年-2022年).pdf VIP
- XX中学校2026年春季学期安全工作计划与应急演练安排表.docx VIP
- 园林植物配置与应用PPT课件.pptx VIP
- DB33/1006-2017 浙江省住宅设计标准.docx VIP
- HGT 4684-2014 液氯泄漏的处理处置方法.docx VIP
- IMT_2030(6G)推进组-通信行业:6G可信内生安全架构研究报告.docx VIP
- 亨格瑞成本与管理会计(第16版) 课件 Chapter 1 The Manager and Management Accounting .pptx
- 人教版高中化学选择性必修第2册 第三章 晶体结构与性质 第三节 金属晶体与离子晶体(一).ppt VIP
- 2025年全媒体运营师全媒体5G传播应用与传统媒体传输方式对比专题试卷及解析.pdf VIP
- IMT_2030(6G)推进组-通信行业:6G通信感知一体化评估方法研究报告.docx VIP
原创力文档

文档评论(0)