网站大量收购独家精品文档,联系QQ:2885784924

多重回归中的注意事项.pptVIP

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

二、共线性诊断与异常点诊断*共线性的解决方法01有偏估计02自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。03所得回归系数的估计值与参数的偏离不大,且较为稳定,另回归系数的标准误比最小二乘法小。04此类方法包括岭回归分析、主成分回归分析等。05二、共线性诊断与异常点诊断*共线性的解决方法偏最小二乘回归分析此法是最小二乘法的一种拓展,最早产生于化学界。建模过程中,集成了主成分分析、典型相关分析和线性回归分析的特点,具有传统经典回归分析所没有的优点。二、共线性诊断与异常点诊断*共线性的解决方法增大样本含量通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。12二、共线性诊断与异常点诊断*030201学生化残差统计量Studentizedresidual,计算公式为:该统计量的绝对值大于2时,所对应的观测点可能是异常点。二、共线性诊断与异常点诊断*Cook’sD统计量库克距离统计量。一般认为,Cook’sD0.5时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点。异常点的处置二、共线性诊断与异常点诊断*认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。多重回归分析中的注意事项医学统计学教研室柳伟伟内容*最优回归子集法自变量的数量化共线性诊断与异常点诊断主成分回归分析一、自变量的数量化*定量变量:通常将定量变量的原始观察值代入方程进行计算。当某个自变量X与因变量Y之间不呈线性关系时,可以考虑对X作某种变换,以改善回归方程的拟合优度。如果数据变换恰当,应使决定系数R2有明显的增大一、自变量的数量化*二值变量:赋值后代入方程进行计算,赋值的方式可以有多种,如对性别的赋值方法可为或12一、自变量的数量化*多值名义变量:需要产生哑变量,每个哑变量都是一个指示变量,所需哑变量的数目为多值名义变量的类别数减1。如“血型”是一个多值名义变量,有A、B、AB、O四种,若以O型血为基准,需引入3个(4-1=3)哑变量来描述。一、自变量的数量化*治疗高血压的疗法分为中医、西医及中西医结合,可用两个哑变量D1、D2表示,赋值方式为疗法哑变量D1D2中医00西医10中西医结合01一、自变量的数量化*疗法哑变量D1D2中医10西医01中西医结合-1-1一、自变量的数量化*两种赋值方法在使用上的侧重点不同,方法一强调参数解释;方法二采用的是方差分析编码的方法,更注重的是假设检验采用不同的回归方法,得到的回归方程不同,但回归分析的总体效果不改变0102一、自变量的数量化*多值有序变量:有两种处理方式,方法一是将有序变量各等级分别赋值1、2、3、…后,直接代入方程计算,这种方式适合于自变量较多、样本含量又不够大的场合;方法二是赋哑变量,这种方式适合于自变量不是很多、样本含量又比较大的场合二、共线性诊断与异常点诊断*条件数设X为n个研究对象在k个自变量上的取值数据矩阵,则可求出其交叉乘积矩阵X′X的k个特征根,记为li(i=1、2、…、k),且有l1l2…lk。二、共线性诊断与异常点诊断*条件数最大特征根与其余每个特征根比值的平方根,称为条件指数(conditionalnumber),公式为:二、共线性诊断与异常点诊断*条件数而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:条件数二、共线性诊断与异常点诊断*直观上,条件数度量了信息矩阵X′X的特征根散布程度,可用来判断多重共线性是否存在及其严重程度。条件数越大,说明设计矩阵X具有越强的共线性。二、共线性诊断与异常点诊断*条件数经验上,若0CNk10,可认为自变量间不存在多重共线性;若10≤CNk≤30,可认为自变量间存在中等程度的多重共线性;若CNk30,则认为自变量间存在严重的多重共线性。二、共线性诊断与异常点诊断*方差分量SAS软件在进行回归诊断时,自动对模型中的全部自变量进行主成分分析,使每个标准化后的自变量相应的方差(值为1)被分解到同等数目的主成分变量上。每个主成分变量分得的方差称为方差分量。二、共线性诊断与异常点诊断*方差分量强的多重共线性可以表现在变量的方差分量上。若条件数(即最大条件指数)所在行同时有两个以上的变量方差分量超过0.5,就意味着这些变量间存在一定程度的

您可能关注的文档

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档