- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
相关和回归分析;1、变量间的关系
2、定量变量间的关系
3、定量变量的线性回归分析;1、变量间的关系;确定性关系 — 函数关系
圆的面积与半径的关系;位移与速度的关系
非确定性关系 — 相关关系和回归关系
身高和体重;例. 广告投入和销售之间的关系;模型;;2、定量变量间的关系;1078对父亲及成年儿子的身高散点图;相关系数含义;;散点图的作用;三种相关系数;某学校随机抽取18名学生,测定其智商(IQ)值,连同当年
数学和语文成绩,数据见下表。;data iq;
input no math chinese IQ @@;
cards;
1 78 83 95
2 84 76 100
3 61 70 100
4 52 58 75
5 93 82 105
6 89 78 97
7 98 89 110
8 98 95 120
9 65 61 76
10 73 75 92
11 48 53 61
12 45 43 60
13 67 70 88
14 75 78 96
15 95 97 125
16 88 92 113
17 99 92 125
18 81 88 102
;;分析变量中两两之间的简单相关分析,用corr过程;
当两变量都服从正态分布时,计算pearson相关系数;
当变量不服从正态分布或为等级数据时,应采用Kendall或Spearman相关系数;
Spearman相关可用于双向有序分类变量之间是否有关联的分析,也称为秩相关。;偏相关;3、定量变量的线性回归分析;一个自变量;线性回归模型;一元线性回归分析;data reg;
input y x;
cards;
626 1881940
786 2364991
966 2903677
1200 3631348
1432 4341876
1626 4870736
;;Root MSE:残差标准差,反映回归方程的精度,其值越小
说明回归效果越好;
R-square:说明所有自变量能解释Y变化的百分比,其值越
接近1,说明模型越好。;多元线性回归分析;proc reg;
model y=x1 x2 x3;
run;;并不是所有自变量对应变量的回归作用都有统计学意义;
如果漏掉对应变量影响显著的变量,预测偏差;
如果包含对应变量影响不大的变量,影响精度。
;最优模型:
统计上有显著性意义的xj都含在模型中;
统计上无显著性意义的xj都不含在模型中。
当自变量较多时,获得最优模型的方法一般采用逐步回归的方法,即依次分析所有可能的模型,逐步地达到最优模型的条件。;常用的三种逐步回归法;proc stepwise;
model y=x1 x2 x3 /sle=0.05 sls=0.05;
/* 确定自变量进入模型和剔除出模型的标准 */ run;
;;;回归诊断;LINE的诊断??残差分析;当模型符合LINE,散点落在一条水平带中间;symbol v=star h=0.4 w=2 cv=red ci=blue;
proc reg;
model y=x1 x2 x3/p;
plot r.*p. ;
run;;分析残差分布正态性;识别异常观测值;Student Residual 2 or Cook’s D 0.5;DATA d;
INPUT y x1 x2;
CARDS;
28 3.36 6.9 24 3.23 6.5
14 2.58 6.2 21 2.81 6.0
22 2.80 6.4 10 2.74 8.4
28 2.90 5.6 8 2.63 6.9
23 3.15 6.5 16 2.60 6.3
13 2.70 6.9 22 3.08 6.3
20 3.04 6.8 21 3.56 8.8
13 2.74 7.1 18 2.78 7.2
;;PROC REG; MODEL y=x1 x2; RUN;;PROC REG; MODEL y=x1 x2 / NOINT P R; RUN;;DATA a;
SET D;
IF _N_=8 THEN DELETE;
PROC REG;
MODEL y=x1 x2 / NOINT P R;
RUN;;检验自变量的共线性;方差膨胀因子(VIF)是对由于共线性而引起的
参数估计量的方差增加的一个相对度量;
Model语句加选项 VIF;
条件指数(condition index)和方差比例(variance proportion)联合使用可确认存在线性关系的变量组。
Model语句加选项 collin;;Variance Inflation =10 or Condition Index
文档评论(0)