- 3
- 0
- 约8.14千字
- 约 60页
- 2023-04-16 发布于广东
- 举报
数据挖掘CHAPTER2数据预处理 * 数据规约策略 在完整数据上的分析/挖掘耗时太长,以至于不现实 Data reduction 获得数据集的一个规约表示,小很多,接近保持原数据的完整性,使得可得到相同/几乎相同的分析结果 数据规约策略如下; 数据立方体聚集:聚集数据立方体结构的数据 维度规约—去除不重要的属性 主成份分析Principal Components Analysis (PCA) 特征子集选择Feature subset selection, 属性产生 数据压缩 Data Compression 基于离散小波变换的数据压缩:图像压缩 数值规约—用某种表示方式替换/估计原数据 Regression and Log-Linear Models Histograms, clustering, sampling 离散化和产生概念分层 * 数据立方体聚集 数据立方体存储多维聚集信息 某抽象层上建的数据立方体称为方体(cuboid) 最底层建的方体称为基本方体(base cuboid) 最高层的立方体称为 顶点方体(apex cuboid) 每个更高层的抽象将减少数据的规模 使用合适的抽象层上的数据 对数据立方体聚集得到与任务相关的最小立方体 * * 数据压缩 Data Compression 字符串压缩 有丰富的理论和调优的算法 典型的是有损压缩; 但只有有限的操作是可可
原创力文档

文档评论(0)