- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个等宽的区间
4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。 5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。 * 数据立方体聚集 是数据的多维建模和表示,由维和事实组成。 * 数据立方体聚集 如果挖掘感兴趣的是年度总销售量,而不关心每个省的销量,就可以对上面的立方体进行聚集,得到一个2维数据 * 年份 2000 3600 3568 6520 1568 2001 3124 4200 8162 1457 2002 3870 4968 11200 1460 2003 4089 5339 16587 1518 体育 厨房 家装 文具 维归约 去掉不相关的属性,减少数据挖掘处理的数据量。 属性子集选择的基本方法包括以下几种: 1.逐步向前选择 该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代步,将剩下的原属性集中最好的属性添加到该集合中。 2.逐步向后删除 该过程由整个属性集开始。在每一步,删除尚在属性集中最差的属性。 * 维归约 3.向前选择和向后删除结合 可以将逐步向前选择和向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。 4.判定树归纳 决策树算法最初是用于分类的。决策树归纳构造一个类似于流程图的结构,其中每个内部(非树叶)节点表示一个属性的测试,每个分枝对应于测试的一个输出;每个外部(树叶)节点表示一个类预测。在每个节点,算法选择“最好”的属性,将数据划分成类。 * 维归约 4.判定树归纳 当决策树归纳用于属性子集选择时,由给定的数据构造决策树。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成归约后的属性子集。方法的结束标准可以不同。该过程可以使用一个度量阈值来决定何时停止属性选择过程。 * 规约后的属性集:{A4 A1 A6} 维归约 5.基于统计分析的归约 使用统计分析中的一些算法,如:主成分分析,逐步回归分析等。 主成分分析(Principal Components Analysis,PCA)搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原来的数据投影到一个小得多的空间,导致维度归约。PCA通过创建一个替换的、更小的变量集“组合”属性的基本要素。原数据可以投影到该较小的集合中。 * 数据压缩 方法分为两类: 无损压缩 基于熵编码。 有损压缩 主成分分析法, 投影寻踪,小波变换。 * 数值归约 常用的方法: 1.直方图 2.聚类 3.抽样:不放回简单随机抽样、放回简单随机抽样、聚类抽样和分层抽样 4.线性回归 5.非线性回归 * 离散化与概念分层生成 数据离散化技术用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。 可以对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分,称作概念分层。 概念分层(concept hierarchy)用于归约数据:用较高层的概念替换较低层的概念。 * 离散化与概念分层生成 1.数值数据的离散化与概念分层生成 可以通过数据分析自动产生,这些方法包括前面介绍过的分箱、直方图、聚类,基于熵的离散化等。 * 第四章 数据预处理 何帆 湖南理工学院 4.1 数据预处理概述 4.2 数据清洗 4.3 数据集成和变换 4.4 数据归约 * 为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘效率和准确性,是数据挖掘中非常重要的环节。 原始数据中存在的问题 1.不一致 2.重复 3.不完整 4.含噪声 5.维度高 6.数据不平衡 * 数据预处理的方法和功能 1.数据清洗 去掉噪声和无关数据 2.数据集成 将多个数据源中的数据结合起来存放在一个一致的数据存储中 3.数据变换 转换成为适合数据挖掘的形式 4.数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等 * 属性选择与处理 1.尽可能赋予属性名和属性值明确的含义 实施预处理和挖掘的人一般不是操作人员,属性的名称和值的含义不明确,首先对名称和取值含义含糊的属性进行处理。 2.统一多数据源的属性值编码 如:有的表用“男”和“女”作为性别的属性值,有的用“M” 和“F”,多个数据源合并时,需要统一。 3.去除唯一属性 原始数据的唯一属性对数据挖掘一般是无用的,通常用来记录唯一性的标识。 * 属性选择与处理 4.去除重复
文档评论(0)