高级统计多元回归.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1页,共26页,2022年,5月20日,21点52分,星期四 1. 回归模型的拟合度 第2页,共26页,2022年,5月20日,21点52分,星期四 简单回归 从散点图开始有助我们对变量间的关系有一个形象化的了解。 如何对变量间的关系进行更准确的描述? —— 线性回归 画出回归线 哪条直线是最优拟合? 第3页,共26页,2022年,5月20日,21点52分,星期四 回归线 拟合的程度怎样? 第4页,共26页,2022年,5月20日,21点52分,星期四 残差 从点到线的离差可代表拟合的程度 (残差)Residuals 第5页,共26页,2022年,5月20日,21点52分,星期四 作回归线 使离差的平方和为最小 离差 = y 观测值- y 预测值 叫做 Least-squares regression 回归方程 y = a + bx IGRAPH /VIEWNAME=Scatterplot /X1 = VAR(salbegin) TYPE = SCALE /Y = VAR (salary) TYPE = SCALE /COORDINATE = VERTICAL /FITLINE METHOD = REGRESSION LINEAR LINE = TOTAL 第6页,共26页,2022年,5月20日,21点52分,星期四 好的模型 残差很小 R2=0.89 第7页,共26页,2022年,5月20日,21点52分,星期四 一般的模型 R2=0.35 残差较大 第8页,共26页,2022年,5月20日,21点52分,星期四 差的模型 R2=0.002 这里的直线基本不能描述数据 第9页,共26页,2022年,5月20日,21点52分,星期四 2. 多元回归的方法(method) 第10页,共26页,2022年,5月20日,21点52分,星期四 多元回归的方法(method) 方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进入方程的次序 标准回归或同时回归:Enter 逐步回归:Stepwise 层次回归:hierarchical 第11页,共26页,2022年,5月20日,21点52分,星期四 标准回归 亦称同时回归(simultaneous) 重叠部分对R2有贡献,但不分配到任何一个自变量中 与其他自变量重叠区域大的自变量的相对重要性可能被忽视 第12页,共26页,2022年,5月20日,21点52分,星期四 逐步回归:Stepwise 在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。 变式 Forward Backward remove 拟合度最优,用于探索性回归 最好 n 20 IV 慎推广,须交互验证 第13页,共26页,2022年,5月20日,21点52分,星期四 层次回归:hierarchical 研究者根据理论假设确定次序,定义block 因果顺序在前的,先进入方程 欲考察的重要变量或者放在前,或放在最后 应选择 statistics… R square change 第14页,共26页,2022年,5月20日,21点52分,星期四 3. 多元回归的数据要求 第15页,共26页,2022年,5月20日,21点52分,星期四 多元回归的数据要求 (1) 因变量应为等距/等比型变量。 在实际操作中,如果有足够的水平,顺序型变量也可。如果因变量 是命名型,则须用判别分析或 logistic regression。 自变量应为等距/等比型变量。在实际操作中,顺序型变量也可。命名型若为 2水平 (dichotomies) 可直接用。命名型若为多水平, 可先转换为 dummy variables。 因变量与自变量的关系应为线性。如果变量间关系是曲线的, 但具单调性 (递增或递减), 可通过转换达成线性。 如果是 U 型线,需特殊转换处理。 尽管自变量间彼此可以有相关, 其相关不可接近完全线性。否则称为 multicollinearity。 第16页,共26页,2022年,5月20日,21点52分,星期四 多元回归的数据要求 (2) 被试数目与自变量数目的比率为10:1 (根据不同情况在20:1至5:1 的范围中);被试数目 100 没有 非常值 (Outliers) 没有 Multicollinearity 第17页,共26页,2022年,5月20日,21点52分,星期四 多元回归的统计前提 3个前提: 因变量残差正态分布 残差与 预测值呈线性关系 在因变量预测值的所有水平上,残差的方差相等 散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(ZRESID) 第18页,共26页,2022年,5月20日,21点52分,星期四 残差图 残差图告诉我们回

文档评论(0)

lanlingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档