统计学实验:回归与相关分析方法及应用.pptx

统计学实验:回归与相关分析方法及应用.pptx

直线回归与相关山东大学公共卫生学院刘云霞

2相关分析:两个变量之间的相关分析可以利用CORR过程完成。如果两个变量服从双变量正态分布,可以做直线相关分析,计算Pearson相关系数。回归分析:回归分析可以利用REG过程和NLIN过程实现。REG过程直接对符合线性回归的变量进行直线回归分析;NLIN过程则用于非线性回归分析。

3§1直线相关分析例1随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间,数据如右表所示。据此数据如何判断这两项指标间有否相关?

4如果两变量间存在直线趋势,则利用CORR过程进行相关分析:计算Pearson相关系数并对相关系数进行假设检验。首先绘制两变量间的散点图,利用plot语句,并且规定散点图中的点子用“*”表示。dataline;inputxy@@;cards;1.1 131.2131.0 150.9151.2 131.1140.8 160.6171.0 140.9161.1 150.7161.1 140.6180.7 17;procplot;ploty*x=*;proccorr;varxy;run;

5两变量的散点图:可以看出所有的点子基本上分布在一条狭长的带状区域内,可以认为存在线性趋势,可以进行线性相关分析。Pearson相关系数及其假设检验结果,可以看出两变量存在线性相关关系,r=-0.93617,P0.0001。在该结果前面SAS还会给出对两个变量的基本的统计描述指标。

6对同一个例子进行回归分析:根据前面的散点图已经知道两变量间存在线性关系,可以进行直线回归分析。回归分析时选用SAS中的REG过程,并需要指定模型形式为:modely=x;§2直线回归分析dataline;inputxy@@;cards;1.1131.2131.0150.9151.2131.1140.8160.6171.0140.9161.1150.7161.1140.6180.717;procplot;ploty*x=*;procreg;modely=x;run;

7对整个模型的假设检验(方差分析):F=92.19,P0.0001,模型有意义。剩余标准差y的均数y的变异系数决定系数校正决定系数输出对截距项以及自变量的假设检验(t检验)的结果,都有统计学意义。Model:由x解释的y部分的变异。Y=a+bx+cintercept是对a=21.66087进行假设检验;x是对b=-7.06522进行假设检验

8如果在model语句后面再加上其它选择项,可以得到另外一些统计量:如果加上stb,语句为“modely=x/stb”,可以输出标准化回归系数(多元回归中应用,消除量纲即单位不同的影响)。如果加上p,语句为“modely=x/p”,可以输出每个观测点的因变量y的实际值、预测值和残差(实际值与预测值的差值)。dataline;inputxy@@;cards;1.1131.2 131.0150.9 151.2131.1 140.8160.6 171.0140.9 161.1150.7 161.1140.6 180.717;procreg;modely=x/stbp;run;

9加stb选择项后输出的自变量的标准化回归系数。加上p选择项后输出的y的实际值、预测值和残差。最下面三项依次为残差和、残差平方和以及预测的残差平方和。

10(1)clm:语句为“modely=x/clm”,可以输出因变量预测值均数的双侧95%可信区间。(2)cli:语句为“modely=x/cli”,可以输出因变量预测值个体的95%容许区间。(3)r:输出残差分析的结果。除了p选项的内容外,还包括预测值和残差的标准误、student残差和cook’sD统计量。dataline;inputxy@@;cards;1.1131.2 131.0150.9 151.2131.1 140.8160.6 171.0140.9 161.1150.7 161.1140.6 180.717;procreg;modely=x/cliclmr;run;

11y的实测值、预测值y预测值均数95%可信区间下限和上限y预测值均数的标准误

12个体y值95%容许区间下限和上限残差及残差的标准误

13学生化残差残差标

文档评论(0)

1亿VIP精品文档

相关文档