机器学习与数据挖掘特征选择与降维.pptVIP

  • 36
  • 0
  • 约3.59千字
  • 约 39页
  • 2017-05-23 发布于广东
  • 举报

机器学习与数据挖掘特征选择与降维.ppt

机器学习与数据挖掘特征选择与降维

机器学习与数据挖掘 特征选择与特征降维 维数灾难 Curse of Dimensionality 随着维数的增加,特征空间的体积指数增加,从而导致各方面的成本指数增加 样本数量 存储空间 计算量 …… 图灵可计算问题:多项式复杂度 涉及高维空间的算法是不可计算的!? 维数灾难 维数灾难的几个表现 空间采样 维数灾难 维数灾难的几个表现 索引困难 维数灾难 维数灾难的几个表现 样本稀疏 总样本:1000 每维划分:4 1维:1000/4 = 250 样本/区间 2维:1000/(4*4) = 62.5 样本/区间 10维:1000/(4^10) = 0.001 样本/区间 维数灾难 维数灾难的几个表现 噪声影响 特征空间:101维 正负样本在第一维的距离:1 样本在其余维的噪声:10% “噪声距离”: ?即使噪声只有10%,高维空间的“噪声距离”足以掩盖正负样本的本质区别 维数灾难 高维空间的奇异特性 维数灾难 数学理论偏好较低维数的空间 要在特征空间进行合理密度的采样,特征维数超过5都是非常困难的 实际问题偏好较高维数的空间 问题的复杂性 特征的完备性 ?特征降维 维数灾难 更多的特征可能导致分类性能反而下降 维数灾难 特征降维的途径 去除无用特征 特征的必要性:不必要的特征对训练无用 特征选择 去除相关分量 特征的相关性:相关的多个特征可以变换成较少的不相关分量 特征变换

文档评论(0)

1亿VIP精品文档

相关文档