数据挖掘2第二章 数据预处理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘2第二章 数据预处理

针对数值型数据的离散化和概念层次化 ECUST--Jing Zhang * 分箱 (前面已讲过) 直方图分析 基于熵的离散化 基于Χ2 (chi-square) 分析的区间合并 聚类分析 根据直观划分离散化 直方图 ECUST--Jing Zhang * 一个常用的非监督数据规约技术 将数据划分成多个桶(buckets),并且以 平均值(总和)表示每个桶 能够通过动态规划的方法优化生成 基于熵的离散化 利用熵的值递归地划分数值属性A的值,产生分层的离散化。 给定一个样本集S,基于熵对A离散化的方法如下: A的每个值可以认为是一个潜在的区间边界或阈值T。 给定S,所选择的阈值时这样的值,它使其后划分得到的信息增益最大。信息增益是: 其中,s1和s2分别对应于s中满足条件AT和A》T的样本。对于给定集合,它的熵函数Ent根据集合中样本的类分布来计算。例如,给定m个类,Si的熵为:(pi是类i在Si中的概率) 确定阈值的过程递归的用于所得到的每个划分,直到满足某个终止条件,如: 实验证明基于熵的离散化可以压缩数据量,提高分类的准确性 * 基于Χ2 (chi-square) 分析的区间合并 基本思想 对于精确的离散化,相对类频率在一个区间内应当相当一致。如果两个邻近的区间具有非常类似的类分布,则这两个区间可以合并。否则,它们应该保持分开 过程 把数值属性A的每个不同值看做一个区间 对每对相邻区间进行Χ2检验 把具有最小Χ2值的相邻区间合并在一起 以上各步递归进行,直到满足预先定义的终止标准 ECUST--Jing Zhang * 聚类 ECUST--Jing Zhang * 将数据集合划分为多个簇, 然后仅仅以簇代表数据 如果数据本身可以分为多个簇,则较为有效 每一个簇可以进一步分成若干子簇,形成较低的概念层。 簇可以聚集在一起,以形成分层结构中较高的概念层 标称数据的概念分层生成 ECUST--Jing Zhang * 由用户或专家在模式级显示地说明属性的部分序 通过显式数据分组说明分层结构的一部分 说明属性集,但不说明他们的偏序 只说明部分属性集 属性集的说明 ECUST--Jing Zhang * 概念分层可以根据给定属性集中每一个属性的不同属性值的个数自动生成。具有最多不同属性值的属性放在分层中的最低层 数据预处理 ECUST--Jing Zhang * 为什么要对数据预处理? 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成 小结 小结 ECUST--Jing Zhang * 数据预处理对于数据仓库和数据挖掘都是一个重要的问题 数据预处理包括 数据清理和数据集成 数据归约和特征选择 离散化和概念分层 尽管已经提出了一些数据预处理的方法,数据预处理仍然是一个活跃研究领域 推荐参考文献 ECUST--Jing Zhang * R. Agrawal, J. Han, and H. Mannila, Readings in Data Mining: A Database Perspective, Morgan Kaufmann (in preparation) U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001 D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 T. M. Mitchell, Machine Learning, McGraw Hill, 1997 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discove

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档