数据挖掘——数据预处理.ppt

下载文档

5
0
约5.52千字
约 47页
2017-06-27 发布于上海
举报
版权申诉
保障服务

数据挖掘——数据预处理.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘与知识发现（复杂数据对象的数据挖掘与知识发现）数据挖掘的困难所在 Noise Skewed distribution Missing values (incomplete info) Scalability High dimensionality Bias in data ... 预处理在知识发现中所占份量预处理各种不同的数据源和数据对象数据的选择、集成与整合，对问题进行限定数据库中的数据具有噪声、缺值、不易至数据的去噪和规范化问题，提高挖掘精度数据的变换规范化、映射到不同的空间，提高挖掘效率数据的规约取出冗余、属性聚类来压缩数据数据的预处理是KDDDM的重要步骤预处理的基本功能预处理主要是接受并理解KDD要求，确定发现任务抽取与发现任务相关的数据源，根据背景知识中的约束性规则对数据进行合法性检查通过清理和归约等操作，生成供挖掘核心使用的目标数据。它汇集了原始数据库中与发现有关的所有数据的总体特征，是知识发现状态空间的基底。 4 数据挖掘的预处理 4.1数据选择与集成 4.2数据清理 4.4数据归约 4.4数据变换 4.5数据离散 4.1 数据选择分析需求和应用，了解业务背景确定分析主题数据库或数据仓库中选择索要分析的数据利用数据转换工具进行分析处理 4.1 数据集成将多文件或多数据库运行环境中的异构数据进行合并处理，解决语义的模糊性。解决数据的冲突问题以及不一致数据的处理问题。数据来自多个系统，存在着异构数据的转换问。多个数据源的之间还存在许多不一致的地方，如命名、结构、单位、含义等。因此，数据集成并非是简单的数据合并，而是把数据进行统一化和规范化处理的复杂过程。需要统一原始数据中的所有矛盾之处，如字段的同名异义、异名同义、单位不统一、字长不一致等，把原始数据在最低层次上加以转换、提炼和聚集。数据集成中还应考虑数据类型的选择问题，尽量选择占物理空间较小的数据类型。 4.1 数据集成——冗余冗余的原因：数据库设计，不同来源的数据引起的数据的相关性冗余检验：属性的相关性——属性A,B 其相关性度量 4.2数据清理 4.1数据选择与集成 4.2数据清理 4.4数据归约 4.4数据变换 4.5数据离散 4.2 数据清理数据清理要去除源数据集中的噪声和无关数据处理遗漏数据和清洗脏数据去除空白数据域和知识背景上的白噪声考虑时间顺序和数据变化等，主要包括重复数据处理和缺值数据处理完成一些数据类型的转换。 4.2 数据清理数据清理可以分为有监督和无监督有监督过程是在领域专家的指导下，分析收集的数据，去除明显错误的噪音数据和重复记录，填补缺值数据；无监督过程是用样本数据训练算法，使其获得一定的经验，并在以后的处理过程中自动采用这些经验完成数据清理工作。 4.2 数据清理另一个重要内容是数据类型的转换，通常是指连续属性的离散化离散化方法有等距区间法、等频区间法和最大熵法。通过离散化，可以有效地减少数据表的大小，提高分类准确性。 4 数据挖掘的预处理 4.1数据库与数据仓库 4.2数据选择与集成 4.3数据清理 4.4数据归约 4.5数据变换 4.6数据离散 4.4 数据规约有些数据属性对发现任务是没有影响的，这些属性的加入会大大影响挖掘效率，甚至还可能导致挖掘结果的偏差。简化是在对发现任务和数据本身内容理解的基础上，寻找依赖于发现目标的表达数据的有用特征，以缩减数据规模，从而在尽可能保持数据原貌的前提下最大限度地精简数据量。 4.4 数据规约主要有两个途径：属性选择和数据抽样，分别针对数据库中的属性和记录。属性选择包括针对属性进行剪枝、并枝、找相关等操作。数据抽样是进行数据记录之间的相关性分析，用少量的记录基底的线性组合来表示大量的记录。它主要得用统计学中的抽样方法如简单随机抽样、等距抽样、分层抽样等。 4.4 数据规约——基于粗糙集理论的约简法粗糙集（Rough Set, RS）一种研究不精确、不确定性知识的数据学工具，目前受到了KDD研究者的广泛重视，用RS理论对数据时行处理是一种十分有效的精简数据维数的方法。我们所处理的数据一般存在信息的含糊性问题，含糊性有三种，术语的模糊性，知识自身的不确定性；数据的不确定性。 4.4 数据规约——基于粗糙集理论的约简法粗糙集（Rough Set, RS） RS理论的最大特点是无需提供问题所需处理的数据集合之外的任何先验信息，其基本思路是利用定义在数据集合U上等价关系对U进行划分。对于数据表来说，这种等价关系可以是某个属性，或者是几个属性的集合。因此按