- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北方工业大学信息工程学院 数据归约 离散化与概念分层 数值数据的离散化与概念分层生成 3-4-5规则 自然划分分段的方法进行概念分层 递归地将给定数据区域划分为3、4或5个等宽的区间 北方工业大学信息工程学院 数据归约 离散化与概念分层 数值数据的离散化与概念分层生成 3-4-5规则 北方工业大学信息工程学院 数据归约 离散化与概念分层 数值数据的离散化与概念分层生成 3-4-5规则构造概念分层 例子 数据集D是某公司每月利润增长数据 单位:千元 取值范围:-13~32 区间规范化:[-20,40) 北方工业大学信息工程学院 数据归约 北方工业大学信息工程学院 数据归约 离散化与概念分层 数值数据的离散化与概念分层生成 3-4-5规则构造概念分层 例子 考虑区间两端的值所占的比例非常少,可以设置一个置信区间(5%~95%)/六西格玛/正态分布,以这两点为初始的划分区间,最后再将两边的区间加上。 北方工业大学信息工程学院 数据归约 北方工业大学信息工程学院 数据归约 北方工业大学信息工程学院 数据归约 北方工业大学信息工程学院 数据归约 离散化与概念分层 分类数据的概念分层生成 分类属性值所包含的数据是数值型、字符型或字符串等 即具有有限个取值的属性(可枚举的) 数据之间没有大小关系 北方工业大学信息工程学院 数据归约 离散化与概念分层 分类数据的概念分层生成 由用户或专家在模式级显式地说明数据的包含关系 北方工业大学信息工程学院 数据归约 离散化与概念分层 分类数据的概念分层生成 通过显式数据分组说明分层结构的一部分 如{1,..,10}定义为上旬,中旬,下旬 北方工业大学信息工程学院 数据归约 离散化与概念分层 分类数据的概念分层生成 根据属性值的个数自动产生分层 把具有最少不同值的属性放在最高层 属性的不同值数据越多,所处的概念层越低 根据数据语义产生分层 在数据模式中加入属性的说明 这些说明把属性组联系在一起 当一个属性被增加进属性组时,依靠数据语义可以把所有相关的属性增加进来 北方工业大学信息工程学院 数据集成和变换 数据变换 规范化 零-均值规范化 属性值范围可以未知(利用样本的全部信息构建) 北方工业大学信息工程学院 数据集成和变换 数据变换 规范化 小数定标规范化 通过移动属性值的小数点位置进行规范化 需要在属性取值范围已知的条件下使用 小数点移动的位数根据属性的最大绝对值确定 北方工业大学信息工程学院 数据集成和变换 数据变换 规范化 小数定标规范化 如客户收入数据 范围为800-5000 北方工业大学信息工程学院 数据集成和变换 数据变换 属性构造 根据已有的属性构造新的属性添加到挖掘数据集中 例如,根据客户月收入数据,构造“收入水平”属性,取值为{低、中、高} 对分类算法有帮助 连续—〉离散 数字—〉符号 多-〉少 数据预处理 数据清洗 数据集成和变换 数据归约 属性选择与处理 空缺值处理 噪声数据处理 不平衡数据的处理 数据集成 数据变换 数据立方体聚集 维归约 数据压缩 数值归约 离散化与概念分层 数据预处理的方法与功能 北方工业大学信息工程学院 数据归约 从大数据集中得到其归约表示—小数据集 归约的目的是减少原始数据量 可以在小数据集上得到与原始数据相同的挖掘结果 数据归约方法(属性的减少,记录的减少,属性值的不同个数减少等) 数据立方体聚集 维归约 数据压缩 数值归约 离散化和概念分层生成 数据预处理 数据清洗 数据集成和变换 数据归约 属性选择与处理 空缺值处理 噪声数据处理 不平衡数据的处理 数据集成 数据变换 数据立方体聚集 维归约 数据压缩 数值归约 离散化与概念分层 数据预处理的方法与功能 北方工业大学信息工程学院 数据归约 数据立方体聚集 一个数据立方体由维和事实组成 一个数据立方体可以是n维的 对数据立方体聚集就是去掉一维,变为n-1维立方体,依此类推 北方工业大学信息工程学院 数据归约 数据立方体聚集 如果挖掘时感兴趣的是年度的总销售量,不关心每个省份的销售量,可以进行聚集,得到2维数据立方体 数据预处理 数据清洗 数据集成和变换 数据归约 属性选择与处理 空缺值处理 噪声数据处理 不平衡数据的处理 数据集成 数据变换 数据立方体聚集 维归约 数据压缩 数值归约 离散化与概念分层 数据预处理的方法与功能 北方工业大学信息工程学院 数据归约 维归约 去掉不相关的,即与挖掘任务无关的属性/维 找到一个最小属性子集,使得这个子集能够具有和原数据集相同或近似的分布 北方工业大学信息工程学院 数据归约 维归约 属性子集选择方法 逐步向前选择 原属性集S和S的一个初始为空的子集S’ 从S中选择最好的属性(最相关的属性)a加入到S’,直到满足结束条件 逐步向后删除 从S中选择最坏的属性(最不相
文档评论(0)