数据挖掘导论-ch2.ppt

数据挖掘导论-ch2创新

维归约:PCA 目标是找到捕获数据中最大变差的投影 x2 x1 e 维归约:PCA 找出协方差矩阵的特征向量 特征向量定义新空间 x2 x1 e 维归约: ISOMAP 构造邻接图 对于图中的每对点,计算最短路径距离– geodesic distances By: Tenenbaum, de Silva, Langford (2000) 维归约:PCA 特征子集选择 另一种降低数据维度的方法 冗余特征 重复了包含在一个或多个其他属性中的许多或所有信息 如: 一种产品的购买价格和所支付的销售税额 不相关特征 包含对于手头的数据挖掘任务几乎完全没用的信息 如: 学生的ID号码对于预测学生的总平均成绩是不相关的 特征子集选择 技术: 暴力法:: 尝试所有可能的特征子集作为数据挖掘算法的输入 嵌入方法: 特征选择作为数据挖掘算法的一部分是理所当然的 过滤方法: 在数据挖掘算法运行前进行特征选择 包装方法: 将数据挖掘算法作为黑盒寻找最佳属性子集 特征创建 创建新的属性集,比原始属性更有效的捕获数据集中的重要信息 三种相关方法: 特征提取 具体领域 映射数据到新的空间 特征构造 组合特征 映射数据到新的空间 Two Sine Waves Two Sine Waves + Noise Frequency 傅里叶变换 小波变换 使用类标签进行离散化 基于熵的方法 3 ca

文档评论(0)

1亿VIP精品文档

相关文档