多重线性回归与多元逐步回归-统计学.pptVIP

多重线性回归与多元逐步回归-统计学.ppt

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多重共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多因素线性回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。 对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。 4.多重共线性 多重共线性的表现在实际应用中主要表现为: (1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上表现,提示存在多重共线性问题,应进行多重共线性诊断。 方差膨胀因子VIF (2) 容忍度(tolerance) 以每个自变量作为应变量,对其他自变量进行回归分析时得到的残差比例,大小用1-R2来表示,该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能越严重。如果自变量的容忍度小于0.1,则可能存在共线性问题。 5 哑变量的设定 2分类,可用一个(0,1)变量。如性别 k分类,k-1个(0,1)变量,如血型。 多重线性回归分析有时先将有序变量或无序多分类变量转换成为多个二分类变量之后,才能将它们引入回归模型。 将有序变量或无序多分类变量转换成为多个二分类变量的过程常被称为“哑元化(dummying)”,得到的多个二分类变量称为“哑变量(dummy variable)”。 一般情况下,若某定性变量有k个水平,就需要引入k-1个二值的哑变量。 血型是一个无序多分类变量,它的取“值”是A、B、AB、O四种, 可以用3个二分类变量来描述。令 表11-5 用二分类哑变量描述血型 血型 变量 1 0 0 0 1 0 0 0 1 0 0 0 (1)无序多分类变量 定量 数据格式回归方程 建立回归方程 b1 :相当A 型相对于O 型的差别 b2 :相当B 型相对于O 型的差别 b3 :相当AB 型相对于O 型的差别 (2)等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。 Y 为经济收入。 解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元)。 表示中学文化者较小学文化者收入多500, 大学较中学多500,余类推。 b1, b2, b3分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小 也可将K个等级转换为K-1个(0,1)变量 为了检验两个自变量是否具有交互作用, 普遍的做法是在方程中加入它们的乘积项。 6. 变量间的交互作用 例2 某项研究调查了3334名有心脏疾患的妇女,了解血清高密度脂蛋白胆固醇(HDL cholesterol,mg/dl)与体质指数(body mass index, BMI, kg/m2)的关系,考虑到是否患糖尿病(DIABETES)也是影响HDL水平的因素,因此建立了一个以体质指数、是否患糖尿病为自变量,HDL为反应变量的线性回归方程,结果如表13-4所示。 表13-4 以体质指数、是否患糖尿病为自变量的线性回归方程 变量 b SE t P 95%CI BMI -0.391 0.017 -22.531 0.000 -0.426 -0.357 DIABETES -4.783 0.092 -52.207 0.000 -4.962 -4.603 CONSTANT 67.551 0.363 185.847 0.000 66.839 68.264 F=2441.323, P0.001; R2=0.594, adjR2=0.594, Root MSE=2.02 模型假定HDL的平均水平随BMI的变化而变化的规律在糖尿病妇女和非糖尿病组之间 是相同的,表现为相同的偏回归系数 -0.391 在多重线性回归模型中引入一个新的自变量(DMBMI),定义为BMI和DIABETES的乘积,这个乘积项描述的是两个自变量与反应变量之间的关系。由于两个自变量已经在模型中,乘积项就可以解释为交互作用。 表13-5 以体质指数、是否患糖尿病为自变量,包含交互作用项的

文档评论(0)

ma982890 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档