第4章R语言数据预处理.pptVIP

下载本文档

8
0
约7.67千字
约 51页
2019-10-22 发布于广东
举报

第4章R语言数据预处理.ppt

* 数据变换 3 1 数据清洗 4 数据集成 2 数据规约目录 5 R语言主要数据预处理函数数据规约数据规约是将海量数据进行规约，规约之后的数据仍接近于保持原数据的完整性，但数据量小得多。通过数据规约，可以达到：降低无效、错误数据对建模的影响，提高建模的准确性少量且具代表性的数据将大幅缩减数据挖掘所需的时间降低储存数据的成本数据规约——属性规约属性规约常用方法有：合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析合并属性初始属性集：规约后属性集：逐步向前选择初始属性集：规约后属性集：数据规约——属性规约逐步向后删除初始属性集：规约后属性集：决策树规约初始属性集：规约后属性集：数据规约——属性规约下面详细介绍主成分分析计算步骤： 1）设原始变量的观测n次数据矩阵为： 2）将数据矩阵中心标准化。为了方便，将标准化后的数据矩阵仍然记为。 3）求相关系数矩阵的定义为：其中 4）求的特征方程的特征根。 5）确定主成分个数m：，根据实际问题确定，一般取80%。数据规约——属性规约 6）计算m个相应的单位特征向量： 7）计算主成分：数据规约——数值规约数值规约通过选择替代的、较小的数据来减少数据量。数值规约可以是有参的，也可以是无参的。有参方法是使用一个模型来评估数据，只需存放参数，而不需要存放实际数据。有参的数值规约技术主要有两种：回归（线性回归和多元回归）和对数线性模型（近似离散属性集中的多维概率分布）。数值规约常用方法有直方图、用聚类数据表示实际数据、抽样（采样）、参数回归法。 * * * * 线性回归接下来对所得结果进行分析：结果中Call部分列出了相应的回归模型公式； Residuals部分列出了残差的最小值点、四分之一分位点、中位数点、四分之三分位点和最大值点； Coefficients部分中 Estimate 是回归方程参数的估计值，Std. Error表示回归参数的标准差，t value 即为t值，Pr(|t|) 即为p值，后面的***为显著性标记，*越多越显著； Multiple R-squared即为R^2，越接近于1越优。线性回归模型建立好后可以进行预测： newX - data.frame(x=0.16) #新数据要是frame predict(mod,newdata=newX,interval=prediction,level=0.95) #interval=pred表示要给出置信区间 fit lwr upr 1 49.42639 46.36621 52.48657 线性回归当模型通过检验，可用于预测，此时我们需要用到R中的predict()函数，假设我们要预测x等于0.16时y的值，其中interval=prediction表示求预测点的值的同时要给出相应的预测区间，level=0.95表示我们求95%的置信区间。分析结果： fit 值即为x=0.16时y的预测值，lwr和upr分别表示预测区间的上下限。一般的回归分析做到这里就可以了。缺失值处理插值方法有Hermite插值、分段插值、样条插值法，而最主要的有拉格朗日插值法和牛顿插值法。以下便对这两种进行介绍。拉格朗日插值法第一步：求已知的n个点对的基函数第二步：求已知的n个点对的插值多项式第三步：将缺失的函数值对应的点代入插值多项式得到缺失值的近似值缺失值处理牛顿插值法第一步: 求已知的n个点

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第4章R语言数据预处理.pptVIP