sas课件第6讲SAS系统与回归分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
sas课件第6讲SAS系统与回归分析

* 回归诊断 识别强影响点--选项 influence 生成的统计量 Cook D统计量的定义为: 其中b(i)表示删除第i个观测后回归系数b的估计量.另一统计量DFFITS定义为: - 回归诊断 识别强影响点--偏杠杆图 偏杠杆图是使有影响观测可视化的方法. 偏杠杆图是两个回归的残差的散点图. 例如对变量 xr 的偏杠杆图: 纵轴是Y关于除xr以外所有x的回归的残差, 横轴是xr关于所有x的回归的残差. 有影响观测通常分离与其它数据点或在某 一轴上有极端数值. 偏杠杆图还可识别要加入哪些变量的高次项. 回归诊断 识别强影响点--生成偏杠杆图 Proc REG 的 Model语句加选项partial 可获得杠杆图(低分辨) PROC REG DATA=数据集名 ; MODEL 应变量=自变量/partial; RUN; (Reg65.sas) 回归诊断 识别强影响点 如何处理有影响的观测: 1.复验数据,确认并无数据输入错误发生; 2.若数据是有效的,模型可能不合适.拟 合此数据可能需要使用高阶模型,也可能数据是反常的; 3.一般不剔除数据.某些有影响的观测提 供重要的信息.若要剔除数据,应给出必 要的描述和说明. 回归诊断 共线性诊断 共线性(collinearity, multicollinearity)问题是指自变量间存在线性关系. 1.自变量之间的线性关系会隐蔽变量的显著性; 2.也会增加参数估计的方差; 3.产生不稳定的模型. 只有拟合多元回归才会发生这一问题. 共线性的诊断可使用方差膨胀因子、条件指数和方差比例. * 回归诊断 共线性诊断-VIF和TOL(容差) 方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量: Rr2 是xr关于模型中其它自变量回归的R2 一般采用 VIF 10 表明存在强共线性问题. Proc REG 的Model语句加选项 VIF 回归诊断 共线性诊断-条件指数和方差比例 PROC REG: Model语句 加选项collin 或 collinoint 条件指数(condition index)和方差比例(variance proportion)联合使用可确认存在线性关系的变量组. 条件指数(hi=(lmax/li)1/2) 在10-30间为弱相关; 在30-100间为中度相关; 大于100表明有强相关. 大的条件指数伴随方差比例0.5 即可确认有 共线性的自变量子集. (Reg66.sas) 回归诊断 误差项的独立性 使用残差来分析误差项的独立性:Durbin-Watson统计量d 残差对时间的散点图 Durbin-Watson 检验 回归诊断 本节的练习题 1.对不同类型汽车的价格和性能的数据CARS: (1) 建立MIDPRICE(中间价)与其它7项指标的多元回归关系式,计算预测值和残差值,并添加到数据表中.找出标准化残差的绝对值大于2的观测点(可疑点)生成一个数据集(名为outlier). (2) 计算COOKD和DFFITS统计量,并添加到数据表,然后找出强影响点.这些是否也是异常点或可疑点? (3) 检验标准化残差的正态性. * 变量选择 变量的选择--回归分析计算 PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r noprint selection= backward |forward| stepwise rsquare |adjrsq|cp slentry=0.05 slstay=0.10 best=个数 aic sbc rmse include=n id 变量名; output out=数据集名 关键统计量名=输出名. . .; RUN; (REG41.sas) 编程--REG过程及选项SELECTION= * 变量选择 逐步回归--基本思想和步骤 以上介绍的选择回归子集的几种方法中,最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下: 基本思想:逐个引入自变量,每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。 基本步骤:首先给出引入变量的显著性水平αin 和剔除变量的显著水平αout。然后按以下框图筛选变量。 变量选择 逐步回归--基本思想和步骤(框图) *

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档