第4章R语言数据预 处理.pptVIP

  • 8
  • 0
  • 约7.67千字
  • 约 51页
  • 2019-10-22 发布于广东
  • 举报
* 数据变换 3 1 数据清洗 4 数据集成 2 数据规约 目录 5 R语言主要数据预处理函数 数据规约 数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小得多。 通过数据规约,可以达到: 降低无效、错误数据对建模的影响,提高建模的准确性 少量且具代表性的数据将大幅缩减数据挖掘所需的时间 降低储存数据的成本 数据规约——属性规约 属性规约常用方法有:合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析 合并属性 初始属性集: 规约后属性集: 逐步向前选择 初始属性集: 规约后属性集: 数据规约——属性规约 逐步向后删除 初始属性集: 规约后属性集: 决策树规约 初始属性集: 规约后属性集: 数据规约——属性规约 下面详细介绍主成分分析计算步骤: 1)设原始变量 的观测n次数据矩阵为: 2)将数据矩阵中心标准化。为了方便,将标准化后的数据矩阵仍然记为 。 3)求相关系数矩阵 的定义为: 其中 4)求 的特征方程 的特征根 。 5)确定主成分个数m: , 根据实际问题确定,一般取80%。 数据规约——属性规约 6)计算m个相应的单位特征向量: 7)计算主成分: 数据规约——数值规约 数值规约通过选择替代的、较小的数据来减少数据量。数值规约可以是有参的,也可以是无参的。有参方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据。有参的数值规约技术主要有两种:回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。数值规约常用方法有直方图、用聚类数据表示实际数据、抽样(采样)、参数回归法。 * * * * 线性回归 接下来对所得结果进行分析: 结果中Call部分列出了相应的回归模型公式; Residuals部分列出了残差的最小值点、四分之一分位点、中位数点、四分之三分位点和最大值点; Coefficients部分中 Estimate 是回归方程参数的估计值,Std. Error表示回归参数的标准差,t value 即为t值,Pr(|t|) 即为p值,后面的***为显著性标记,*越多越显著; Multiple R-squared即为R^2,越接近于1越优。 线性回归 模型建立好后可以进行预测: newX - data.frame(x=0.16) #新数据要是frame predict(mod,newdata=newX,interval=prediction,level=0.95) #interval=pred表示要给出置信区间 fit lwr upr 1 49.42639 46.36621 52.48657 线性回归 当模型通过检验,可用于预测,此时我们需要用到R中的predict()函数,假设我们要预测x等于0.16时y的值,其中interval=prediction表示求预测点的值的同时要给出相应的预测区间,level=0.95表示我们求95%的置信区间。 分析结果: fit 值即为x=0.16时y的预测值,lwr和upr分别表示预测区间的上下限。一般的回归分析做到这里就可以了。 缺失值处理 插值方法有Hermite插值、分段插值、样条插值法,而最主要的有拉格朗日插值法和牛顿插值法。以下便对这两种进行介绍。 拉格朗日插值法 第一步: 求已知的n个点对 的基函数 第二步: 求已知的n个点对 的插值多项式 第三步: 将缺失的函数值对应的点 代入插值多项式得到缺失值的近似值 缺失值处理 牛顿插值法 第一步: 求已知的n个点

文档评论(0)

1亿VIP精品文档

相关文档