- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理2
维归约--判定树归约 数值归约--抽样(采样) 数据规约--抽样(采样) 数据变换—规范化 规范化是指将数据按比例进行缩放,使之落入一个小的特定区域,加快训练速度,以消除数值型属性因大小不一而造成挖掘结果的偏差。 例如可以将工资收入属性值映射到[-1.0,1.0]范围内。 规范化主要方法有: 最小-最大规范化 零-均值规范化 小数定标规范化 最小—最大规范化 已知属性的取值范围,将原取值区间[old_min,old_max]映射到[new_min,new_max]上主要通过如下公式计算 示例1:假设属性income的最大值最小值分别是12,000元和98,000元,若要利用最大最小规格化方法将属性income的值映射到0至1的范围内,那么对属性income的73,600元将被转换为 零—均值规范化 (z—score规范化) 根据属性A的均值和标准差来对A进行规格化,常用于最大值与最小值未知的情况,其计算公式如下: 和 分别为属性A的均值和标准差 示例2: 假设属性income的均值与方差分别为54,000元和16,000元,使用零均值规格化方法将73,600元的属性income值映射为 小数定标规范化 通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。 j为使max(|v|)1成立的最小整数 示例3:假设属性A的取值范围从-986到917,属性A绝对值的最大值为986.采用小数定标规范化方法,就是将属性A的每个值除以1000(即j=3)即可,因此-986映射为-0.986 数据变换---属性构造 属性构造是由给定的属性构造和添加新的属性,有利于挖掘。 比如根据属性height和width可以构造area属性。 通过属性构造,可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。 3.2.4 数据归约 数据归约技术能够从原有的庞大数据集中获得一个精简的数据集合,并使这一精简的数据集保持原有数据集的完整性,以提高数据挖掘的效率。 数据归约主要方法有: 数据立方体聚集 维归约 数据压缩 数值压缩 离散化和概念分层生成 数据归约—数据立方体聚集 下图所示数据是某商场2000-2002年每季度的销售数据,对这种数据进行聚集,使结果数据汇总每年的总销售额,而不是每季度的总销售额。 聚集后数据量明显减少,但没有丢失分析任务所需要的信息。 2002年 2001年 2000年 季度 销售额 一季度 224000元 二季度 408000元 三季度 350000元 四季度 586000元 对年度内的各季度数据进行sum(求和)聚集 年 销售额 2000 1568000元 2001 2356000元 2002 3594000元 数据规约—维归约 维归约是指通过删除不相关的属性来减少数据挖掘处理的数据量。 例如:挖掘学生选课与所取得的成绩的关系时,学生的电话号码可能与挖掘任务无关,可以去掉。 通常使用属性子集选择方法,其目标就是找出最小属性集。 数据归约--维归约 属性子集选择的基本方法有: 逐步向前选择:该过程由空属性集开始,每次都选择原属性集中最好的属性。 逐步向后删除:该过程是由整个属性集开始,每一步都删除仍在属性集中的最坏的属性。 向前选择和向后删除的结合:即每一次都选择一个最好的并在剩余的属性中删除一个最坏的属性。 判定树归纳:利用判定树的归纳对初始数据进行分类归纳学习(具体内容将在第五章进行详细讲解)。 A4? Y N N N Y Y 类4 类3 类2 类1 A6? A1? 每个内部节点表示一个属性上的测试,每个分枝代表一个测试结果的输出,每个叶子结点代表一个判定类。归约后的属性集是{A1,A4,A6} 数据规约—数据压缩 数据压缩----经过数据编码或者变换,得到原始数据的压缩表示。数据压缩可以减少数据存储而不影响数据挖掘的结果。 压缩算法分类: 无损压缩:可以不丢失任何信息地还原压缩数据。例如字符串压缩。 有损压缩:是指利用人类听觉、视觉不敏感这一特性来完成的压缩。例如:音频/视频压缩。 数据归约--数据压缩 原始数据 原始数据的近似值 压缩数据 无损 有损 数据归约—数值归约 数值归约是指用较小的数据来表示数据,减少 数据量 数值归约常用的方法: 直方图 聚类 抽样(采样) 数值归约—直方图 40组客户交易数据中购买某商品的数量(经过排序)为:1,1,1,1,2,2,2,2,2,4,4,4,5,5,5,5,5,5,5,5,5,8,8,8,10,10,10,10,10,1
文档评论(0)