SAS学习系列23. 多元线性回归.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
23. 多元线性回归 一、多元线性回归 1. 模型为 Y=??0+??1X1+…+ ??NXN+ε 其中 X1, …, XN是自变量,Y是因变量,??0, ??1…, ??N是待求的未知参数,ε是随机误差项(残差),若记 多元线性回归模型可写为矩阵形式: Y=Xβ+ε 通常要求:矩阵X的秩为k+1(保证不出现共线性), 且kN; ε为正态分布,E(ε)=0 和E(εε’)= ??2I嵌入 Equation.3 ,其中I为N×N单位矩阵。 用最小二乘法原理,令残差平方和 最小,得到 为β的最佳线性无偏估计量(高斯-马尔可夫定理)。 2. ??2的估计和T检验 选取??2的估计量: 则 假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出: 其中tα/2为与α%显著水平有关的t分布临界值。 3. R2和F检验 若因变量不具有0平均值,则必须对R2做如下改进: 随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系): 做假设检验: H0: ??1=…=??N=0; H1: ??1…, ??N至少有一个≠0; 使用F统计量做检验, 若F值较大,则否定原假设。 二、PROC REG过程步 基本语法: PROC REG data = 数据集; MODEL 因变量 = 自变量列表 /可选项; restrict 自变量的等式约束; 说明:MODEL语句用来指定因变量和自变量; restrict语句示例:restrict a1+a2=1; 常用的输出可选项: STB——输出标准化偏回归系数矩阵 CORRB——输出参数估计矩阵 COLLINOINT——对自变量进行共线性分析 P——输出个体观测值、预测值及残差 (R/CLM/CLI包含P) R——输出每个个体观测值、残差及标准误差 CLM——输出因变量均值95%的置信界限的上下限 CLI——对各预测值输出95%的置信界限的上下限 MSE——要求输出随机扰动项方差??2的估计 与残差分析有关的可选项 ? VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大; ?COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性; ?TOL——表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系; ?DW——输出Durbin-Watson统计量; influence——对异常点进行诊断,对每一观测点输出统计量(Cook’s D 50%, defits/debetas 2说明该点影响较大)。 交互式语句 ? add——向模型中增加变量; ? delete——删除原拟合模型中的有关变量; ? refit——重新拟合模型; ? print——输出有关模型的相关信息。 绘制回归分析的图形 在PROC REG过程步加入绘图选项语句即可。 基本语法: PROC REG data = 数据集PLOTS = (图形类型); 可选的绘图类型: FITPLOT——带回归线、置信预测带的散点图; RESIDUALS——自变量的残差图; DIAGNOSTICS——诊断图(包括下面各图); COOKSD——Cooks D统计量图; OBSERVEDBYPREDICTED——根据预测值的因变量图; QQPLOT ——检验残差正态性的QQ图; RESIDUALBYPREDICTED——根据预测值的残差图; RESIDUALHISTOGRAM——残差的直方图; RFPLOT——残差拟合图; RSTUDENTBYLEVERAGE——杠杆比率的学生化残差图; RSTUDENTBYPREDICTED——预测值的学生化残差图; 注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY: PROC REG data = 数据集 PLOTS(ONLY) = (图形类型); 例1 用多元线性回归模型,来研究耗氧量的是如何依赖其它变量的。 31位成年人心肺功能的调查数据(见下表),由于回归是相关的,所以理论上还应该做共线性诊断。 age weight Oxygen 耗氧量 runtime 跑15英哩的时间(分) rstpulse 休息时每分钟心跳次数 runpulse 跑步时每分钟心跳次数 Maxpulse 每分钟心跳次数最大值 44 89.47 44.609 11.37 62 178 182 40 75.07 45.313 10.07 62 185 185 44 85.84 54.29

文档评论(0)

smashing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档