常用多变量统计分方法简介.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
常用多变量统计分方法简介

Multivariate linear regression 二、多元线性回归分析的步骤 1、对模型的假设检验—F检验 2、对偏回归系数的假设检验—F检验和t 检验 3、标准化偏回归系数 SS总=lyy=222.5519;ν总=n-1=26 SS剩余= SS总- SS回归=222.5519-133.7107=88.8412 ν剩余=n-m-1=22 MS回归= SS回归/ν回归; MS剩余= SS剩余/ν剩余; F= MS回归/ MS剩余 评价回归方程回归效果的优劣是回归分析的重要内容之一。 常用评价指标有: 决定系数、 校正决定系数、 剩余标准差等。 (一)最优子集回归法 (二)逐步选择法 (1)前进法 (2)后退法 (3)逐步回归法 第三节 多元线性回归的应用及其注意事项 二、 多元线性回归应用时的注意事项 1.样本含量 2.方程“最优”问题 3.关于逐步回归 4.多元共线性 5. 异常值识别与强影响分析 多元共线性的表现在实际应用中主要表现为: (1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上情况,提示存在多元共线性问题,应进行多元共线性诊断。 model x2=x3 x4; R-Square= 0.0492;VIF1=1/(1-0.0492)=1.0517 model x3=x2 x4; R-Square= 0.1099;VIF1=1/(1-0.1099)=1.1235 model x4=x2 x3; R-Square= 0.1514;VIF1=1/(1-0.1514)=1.1783 方差膨胀因子VIF proc reg; model y=x2-x4/tol vif collin; run; tol输出容许度;vif输出方差膨胀因子;collin输出所有特征值、特征值对应的条件指数及每一个自变量在每一个特征值上的方差比。 特征根 条件指数 方差分量 如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。 残差 学生化残差 cook’s距离 某研究所调查了13名儿童的性别(x1:男=1,女=2)、年龄(x2:月)、身高(x3:厘米)、体重(x4:公斤)、胸围(x5:厘米)和心象面积(y:平方厘米),数据见表。试5个影响因素与心象面积间的关系。 相关分析结果 例16.3 回归分析结果 各偏回归系数假设检验结果 自变量间的相关性 1.决定系数 2、剩余标准差 3、校正决定系数 三、逐步回归分析 求出所有自变量可能组合子集的回归方程的模型(共有2m-1个),按一定准则选择最优模型。 最优子集法的局限性:如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……..;当自变量数个数为50时,所有可能的回归为250-1≈1015个。 1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)。 它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验 自变量从无到有、从少到多 Y对每一个自变量作直线回归,对回归平方和最大的自变量作F 检验,有意义(P小)则引入。 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F 检验,…。 局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。 先将全部自变量放入方程,然后逐步剔除 偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果;开始时剔 除的变量即使后来变得有显著性也不能再进入方程 。 双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法) 小样本检验水准 a 一般定为0.10或0.15,大样本把a值定为0.05。 a值越小表示选取自变量的标准越严。 逐步回归分析的基本思想 用逐步回归法筛选自变量 进入方程的自变量 剔出方程的自变量 每一步时模型的决定系数R2 C(p)统计量 标准化偏回归系数 y=0.35409x2-0.36013x3+0.41334x4 变量筛选后去掉截距项后方程各项评价指标的变化

文档评论(0)

jyf123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6153235235000003

1亿VIP精品文档

相关文档