R语言基础培训-常用统计分析课件.pptVIP

  • 0
  • 0
  • 约1.91千字
  • 约 57页
  • 2026-01-25 发布于北京
  • 举报

基于R的基本统计分析;内容提要;描述分析(Descriptivestatistics);标准差(std.dev)和标准误(SE.mean);标准差(std.dev)和标准误(SE.mean);在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+1.96*SE);95%CI:

假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为152cm±12cm。但有时需要表示为估计量的95%的置信区间[152cm-1.96*12cm,152cm+1.96*12cm]。可以解释为,如果从再从总体中抽样100次(每次抽样10个),产生100个平均值,这100个平均值将有95次落在[152cm-1.96*12cm,152cm+1.96*12cm]这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说,不管是学校的学生身高是怎么分布,每次随机抽取10个求和,抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。

;8;;峰度(Kurtosis);偏度(Skewness);频数表(Frequencytable)分析;频数表分析例子;方差分析ANOVA;单因素方差分析;##TukeyHSD方法##

install.packages(multcomp)

library(multcomp)

tuk-glht(fit,linfct=mcp(Treat=Tukey))

summary(tuk)#standarddisplay

tuk.cld-cld(tuk)#letter-baseddisplay

opar-par(mai=c(1,1,1.5,1))

plot(tuk.cld)

par(opar);双因素(无重复)方差分析;多重比较;重复试验的双因素方差分析;协方差分析(analysisofcovariance);单因素协方差分析;双因素协方差分析;t检验;3.5.1单样本检验;;卡方检验是参照卡方分配来计算概率和临界值的统计检验,是用途很广的一种假设检验方法。

分析原理:

(1)建立零假说(NullHypothesis),即认为观测值与理论值的差异是由于随机误差所致;

(2)确定数据间的实际差异,即求出χ2值;

(3)如卡方值大于某特定概率标准??即显著性差异)下的理论值,则拒绝零假说,即实测值与理论值的差异在该显著性水平下是显著的。;卡方检验;卡方检验;卡方检验(列联表);练习四;练习四答案;32;线性回归;3.6.1简单线性回归;计算校正R2;多项式回归;多元线性逐步回归;最优线性回归方程为:

y=-649.779+14.592×x1+6.841×x2+9.329×x3

回归方程表明:对于川农16号小麦而言,当x2和x3固定时,穗数x1每增加1万/亩,产量y将平均增加14.592Kg/亩;当x1和x3固定时,每穗粒数x2每增加1粒,产量y将平均增加6.841Kg/亩;当x1和x2固定时,千粒重x3每增加1g,产量y将平均增加9.329Kg/亩。

;自变量的作用主次;交互作用多元线性回归;练习四;练习四答案;43;相关分析;Pearson、Spearman和Kendall相关;Pearson积矩相关系数;Spearman;48;49;【例子4.8.1.1】在某杉木林分内随机抽取30棵树,测定了树高h(m)、胸径dbh(cm)、材积v(m3)、心材比例cpro(%)、木材基本密度wd(kg/m3)、木材吸水率wpro(%)、管胞长度tl(μm)、管胞宽度tw(μm)和管胞长宽比lrt,测试结果如表4-29所示。试分析各性状之间的相关系数。;偏相关(Partialcorrelation);52;相关显著性的检验;54;55;;谢谢大家!

文档评论(0)

1亿VIP精品文档

相关文档