大数据挖掘算法设计讲述.docx

下载文档 降价啦

7
0
约1.68万字
约 27页
2017-05-06 发布于湖北
举报
版权申诉
保障服务

大数据挖掘算法设计讲述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据挖掘算法设计讲述

大数据挖掘平台算法设计一．基本统计方法基本统计方法包括相关分析和假设检验，建模所需数据比较简单，具体如表1所示。表1-1基本统计方法输入输出整理算法类型算法名称输入输出输出形式基本统计方法相关分析（Pearson、Spearman）各变量的值（数值型）变量的相关系数表或图假设检验（卡方检验、KS检验）各变量的值（数值型）检验统计量及p值表或图二．降维算法（PCA/SVD）2.1主成分分析（PCA）主成分分析(PCA)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。2.1.1 PCA输入变量类型：主成分分析的变量类型都是数值型变量目标变量定义：主成分分析无目标变量（无因变量）2.1.2 PCA输出主成分分析分析输出包括各主成分得分表，如表1-8所示，第一列为标签变量，X1、X2、X3、X4、X5为建模输入的变量，第一主成分得分、第二主成分得分、第三主成分得分以及主成分综合得分为各主成分的得分。表 1-2主成分分析输出结果（示例）样本X1X2X3…X5第一主成分得分第二主成分得分主成分综合得分0011670.01848.93821.2…0.73.171.332.5260021140.25562.12578.24…0.471.550.341.12650037100.453619.283481.29…0.3-0.840.78-0.2730043470.011759.981709.92…0.370.34-0.210.1475主成分分析分析输出还包括各主成分特征值及方差贡献率，如表1-3所示。表1-3特征值与方差贡献率ComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %14.81537.03837.0384.81537.03837.0383.31525.50225.50222.41218.55155.5892.41218.55155.5892.38518.34243.84431.60512.34567.9351.60512.34567.9352.28717.59561.439主成分分析还包括KMO检验表，判断是否适合做主成分分析，如表1-4所示。表1-4 KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.0.693Bartletts Test of SphericityApprox. Chi-Square523.978df78Sig..000主成分分析还包括载荷矩阵，如表1-5所示，可以得出各指标在各主成分的载荷系数。表1-5载荷矩阵（示例）成长性指标Component.955.249-.003-.065-.076.950.256-.019-.073-.091.937.280-.042-.080-.104.345.893.055-.032-.0852.2奇异值分解（SVD）假设C是M x N矩阵，U是M x M矩阵，其中U的列为的正交特征向量，V为N x N矩阵，其中V的列为的正交特征向量，再假设r为C矩阵的秩，则存在奇异值分解：其中和的特征值相同，为Σ为M X N，其中，其余位置数值为0，的值按大小降序排列。以下是Σ的完整数学定义：σi称为矩阵C的奇异值。SVD常用于潜在语义分析，作为文本数值转化后的计算模型。2.2.1 SVD分解的输入变量类型：SVD分解的输入变量都是数值型变量目标变量定义：SVD分解无目标变量（无因变量）2.2.2 SVD分解的输出变量类型：SVD分解的输出包括三部分：U矩阵、Σ（奇异值对角阵或奇异值）和V（V矩阵或V的转置矩阵）。SVD的分解如图1所示，图1-1基于R语言进行SVD分解三．分类算法3.1分类算法基本介绍3.1.1 决策树算法决策树(Decision tree)是用于对数据进行分类和预测的主要数据挖掘技术之一，是一种以实例为基础的归纳学习算法。它利用自顶向下的递归方式能够从一组无规则的实例中推理出分类规则，并得到类似一棵树的枝干的结构图。树的最顶端是根节点，在内部节点进行属性的比较即表示对一个属性的测试，并从该节点根据不同属性值判断向下进行分枝，一个分枝即表示一个测试输出，最终的叶节点代表一个类别。算法优势：1）模型非常直观，容易让人理解和应用；2）决策树搭