(用)第七课多元统计素材.doc

数据挖掘 十大经典数据挖掘算法是那些?  数据挖掘十大经典算法可以分为以下情况。  1 与分类相关的算法:C4.5, CART(分 类与回归树), Na?ve Bayes(朴素贝叶斯, K 近邻, 支持向量, 最大期望, AdaBoost;  2 与聚类相关的算法: K均值3 与关联规则相关的算法:Apriori4 与搜索引擎相关的算法:PageRankMASS包:library(MASS)) lda(formula, data, ..., subset, na.action) qda(formula, data, ..., subset, na.action) 参数formula为公式,形如groups~x1+x2+…, data为数据构成的数据框,subset为可 选择向量,表示观察值的子集,na.action为函数,表示处理缺失数据的方法。 lda( )函数的返回值有:调用方法、先验概率、每一类样本的均值和线性判别系数,qda( )函数的返回值与lda( )函数的返回值相同,只是没有线性判别系数,因此,无论预测还是回代,还需要有预测函数predict( )函数。 对于lda( )函数而言,predict( )函数的使用格式: predict(object, newdata , prior = object$prior, dimen, method=c(“plug-in”,predictive,”debiased”),…) 对于qda( )函数而言,predict( )函数的使用格式: predict(object, newdata , prior = object$prior, method=c(“plug-in”,predictive,”debiased”,”looCV”),…) 参数object为lda( )函数或qda( )函数生成的对象;当lda( )或qda( )使用公式形式计算时, newdata为预测数据构成的数据框;当lda( )或qda( )使用矩阵或因子计算时,newdata为向量, 默认值为全体训练样本;prior为先验概率,默认值使用对象的先验概率,dimen为使用空间的 维数,method为参数估计的方法。 predict( )函数的返回值有:$class(分类),$posterior(后验概率),$x(qda函数无此项) 。 例1 某气象站检测前14年气象的实际资料如下表,有两项综合预报因子,其中有春旱的是6个年份资料,无春旱的是8个年份资料,今年测到两个指标的数据为(23.5,-1.6),试用lda( )函数和qda( )函数对数据做判别分析,并预报今年是否有春旱。 表 某气象站有无春旱的资料 序号 春旱 无春旱 24.8 -2.0 22.1 -0.7 24.1 -2.4 21.6 -1.4 3 26.6 -3.0 22.0 -0.8 4 23.5 -1.9 22.8 -1.6 5 25.5 -2.1 22.7 -1.5 6 27.4 -3.1 21.5 -1.0 7 22.1 -1.2 8 21.4 -1.3 解:数据框输入数据, 式调用 exam.data-data.frame( X1=c(24.8, 24.1, 26.6, 23.5, 25.5, 27.4, 22.1, 21.6, 22.0, 22.8, 22.7, 21.5, 22.1, 21.4), X2=c(-2.0, -2.4, -3.0, -1.9, -2.1, -3.1, -0.7, -1.4, -0.8, -1.6, -1.5, -1.0, -1.2, -1.3), sp=

文档评论(0)

1亿VIP精品文档

相关文档