- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
23. 多元线性回归
一、多元线性回归
1. 模型为
Y=??0+??1X1+…+ ??NXN+ε
其中 X1, …, XN是自变量,Y是因变量,??0, ??1…, ??N是待求的未知参数,ε是随机误差项(残差),若记
多元线性回归模型可写为矩阵形式:
Y=Xβ+ε
通常要求:矩阵X的秩为k+1(保证不出现共线性), 且kN; ε为正态分布,E(ε)=0 和E(εε’)= ??2I嵌入 Equation.3 ,其中I为N×N单位矩阵。
用最小二乘法原理,令残差平方和
最小,得到
为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2. ??2的估计和T检验
选取??2的估计量:
则
假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:
其中tα/2为与α%显著水平有关的t分布临界值。
3. R2和F检验
若因变量不具有0平均值,则必须对R2做如下改进:
随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系):
做假设检验:
H0: ??1=…=??N=0; H1: ??1…, ??N至少有一个≠0;
使用F统计量做检验,
若F值较大,则否定原假设。
二、PROC REG过程步
基本语法:
PROC REG data = 数据集;
MODEL 因变量 = 自变量列表 /可选项;
restrict 自变量的等式约束;
说明:MODEL语句用来指定因变量和自变量;
restrict语句示例:restrict a1+a2=1;
常用的输出可选项:
STB——输出标准化偏回归系数矩阵
CORRB——输出参数估计矩阵
COLLINOINT——对自变量进行共线性分析
P——输出个体观测值、预测值及残差 (R/CLM/CLI包含P)
R——输出每个个体观测值、残差及标准误差
CLM——输出因变量均值95%的置信界限的上下限
CLI——对各预测值输出95%的置信界限的上下限
MSE——要求输出随机扰动项方差??2的估计
与残差分析有关的可选项
? VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;
?COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性;
?TOL——表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系;
?DW——输出Durbin-Watson统计量;
influence——对异常点进行诊断,对每一观测点输出统计量(Cook’s D 50%, defits/debetas 2说明该点影响较大)。
交互式语句
? add——向模型中增加变量;
? delete——删除原拟合模型中的有关变量;
? refit——重新拟合模型;
? print——输出有关模型的相关信息。
绘制回归分析的图形
在PROC REG过程步加入绘图选项语句即可。
基本语法:
PROC REG data = 数据集PLOTS = (图形类型);
可选的绘图类型:
FITPLOT——带回归线、置信预测带的散点图;
RESIDUALS——自变量的残差图;
DIAGNOSTICS——诊断图(包括下面各图);
COOKSD——Cooks D统计量图;
OBSERVEDBYPREDICTED——根据预测值的因变量图;
QQPLOT ——检验残差正态性的QQ图;
RESIDUALBYPREDICTED——根据预测值的残差图;
RESIDUALHISTOGRAM——残差的直方图;
RFPLOT——残差拟合图;
RSTUDENTBYLEVERAGE——杠杆比率的学生化残差图;
RSTUDENTBYPREDICTED——预测值的学生化残差图;
注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:
PROC REG data = 数据集 PLOTS(ONLY) = (图形类型);
例1 用多元线性回归模型,来研究耗氧量的是如何依赖其它变量的。
31位成年人心肺功能的调查数据(见下表),由于回归是相关的,所以理论上还应该做共线性诊断。
age
weight
Oxygen
耗氧量
runtime
跑15英哩的时间(分)
rstpulse
休息时每分钟心跳次数
runpulse
跑步时每分钟心跳次数
Maxpulse
每分钟心跳次数最大值
44
89.47
44.609
11.37
62
178
182
40
75.07
45.313
10.07
62
185
185
44
85.84
54.29
文档评论(0)