大数据挖掘算法设计.docxVIP

  • 42
  • 0
  • 约1.68万字
  • 约 27页
  • 2016-12-25 发布于重庆
  • 举报
大数据挖掘平台算法设计一.基本统计方法基本统计方法包括相关分析和假设检验,建模所需数据比较简单,具体如表1所示。表1-1基本统计方法输入输出整理算法类型算法名称输入输出输出形式基本统计方法相关分析(Pearson、Spearman)各变量的值(数值型)变量的相关系数表或图假设检验(卡方检验、KS检验)各变量的值(数值型)检验统计量及p值表或图二.降维算法(PCA/SVD)2.1主成分分析(PCA)主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。2.1.1 PCA输入变量类型:主成分分析的变量类型都是数值型变量目标变量定义:主成分分析无目标变量(无因变量)2.1.2 PCA输出主成分分析分析输出包括各主成分得分表,如表1-8所示,第一列为标签变量,X1、X2、X3、X4、X5为建模输入的变量,第一主成分得分、第二主成分得分、第三主成分得分以及主成分综合得分为各主成分的得分。表 1-2主成分分析输出结果(示例)样本X1X2X3…X5第一主成分得分第二主成分得分主成分综合得分0011670.01848.93821.2…0.73.171.332.5260021140.25562.12578.24…0.471.550.341.12650

文档评论(0)

1亿VIP精品文档

相关文档