多重线性回归与相关要点.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十三章 多重线性回归与相关 卫生统计与流行病学教研室 2010年11月22日 理论复习与拓展 本章内容 多重线性回归的概念及其统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选 多重回归(Multiple linear regression)与多重相关(Multiple correlation)是研究一个连续性因变量和多个自变量之间的线性关系的统计学方法。其基本原理和方法与简单回归和相关完全一致。 本章讨论多重回归与相关的一些基本概念。学完后应掌握如何收集准确的数据、正确调用统计分析的程序以及对输出结果进行合理解释。 第一节 多重线性回归的概念 及其统计描述 一.数据与模型 例13-1 为了研究空气中一氧化氮(NO)的浓度与汽车流量等因素的关系,有人测定了某城市交通点在单位时间内过往的汽车数、气温、空气湿度、风速以及空气中的NO的浓度,数据如表13-1所示。 基本目的:用一个以上的自变量X1,X2,…,Xp的数值估计反应变量Y的平均水平。数学模型为: 其中,β0为常数项,也称截距; βj为自变量Xj的偏回归系数(partial regression coefficient),表示当方程中其他自变量保持不变时,自变量变化一个单位,反应变量Y的平均值变化的单位数;而e则是除去p个自变量对Y影响后的随机误差,也称残差。 相应的由样本估计而得到的多重线性回归方程为: 其中, 为Xi(X1 ,X2 ,... Xp)时反应变量Y的总体平均值的估计值; b0和b1,b2,… bp为偏回归系数的估计值。 P个自变量都有各有计量单位,所以不能直接用普通偏回归系数的数值大小来比较方程中各个自变量对反应变量的影响大小。 怎么办?将数据标准化,求标准化偏回归系数。 将原始观测数据进行标准化,即 然后用标准化的数据进行回归模型拟合,得到标准化回归系数(standardized partial regression coefficient )。标准化偏回归系数(没有单位)较大的自变量在数值上对反应变量Y的影响较大。 二.回归参数的估计 多重线性回归分析的前提条件完全与简单线性回归的条件相同:线性、独立、正态和等方差,即LINE。 采用最小二乘法(LSE)来估计未知参数 基本原理:利用收集到的因变量和自变量的一组数据,建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方之和尽可能地小。 只有一个自变量时,回归的结果为二维平面上的一条直线; 有两个自变量时,回归结果为三维空间的一个平面(如图13-1); 有更多变量时,回归结果则是在三维以上空间的“超平面”,无法用直观图形表达,只能想象。 图13-1 两个自变量时,回归平面示意图 根据最小二乘法可以得到如下方程组: 由于计算量相当大,一般都是依靠统计软件来完成。对于例13-1的数据,经SAS程序计算可获得回归方程: 第二节 多重线性回归的假设检验 目的:每个自变量对反应变量的影响是否有统计学意义。 注意检验假设: H0:β1=β2=β3=β4=0 H1:总体偏回归系数不全为0 二.回归系数的t检验 回归方程具有统计学意义时,检验某个总体偏回归系数是否等于0,以判断相应的变量对回归是否的确有贡献。 H0:βj=0 H1:βj≠0 检验统计量为 其中Sbj为第j偏回归系数的标准误。 SAS结果如表13-3所示。 可见,这四个变量中,变量 X1 、X2和X4的偏回归系数在0.05概率水平具有统计学意义,而气湿(X3)对NO浓度的影响无统计学意义。 第三节 复相关系数与偏相关系数 一.决定系数、复相关系数与调整决定系数 回归平方和在总平方和的百分比称为确定系数或决定系数(coefficient of determination) ,记为R2,用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。其定义为: 取值范围为0≤R2≤1,越接近与1,说明样本数据越好的拟合了所选用的线性回归模型。 对总体确定系数R2=0的假设检验完全等价于对回归方程的整体方差分析,因为 其中,p为回归模型中自变量的个数,n为样本含量。 R2是联系多重回归与相关的纽带,反映回归模型拟合数据的优良程度。 对例13-1,由方差分析表可得: SS回=0.06396 SS残=0.01727 SS总=0.08122 说明用包含汽车流量、气温、气湿与风速这四个变量的回归方程可以解释交通点空气NO浓度变异性的78.74% 复相关系数(multiple correlation coefficient) R,定义为决定系数的算术平方根,即 表示变量

文档评论(0)

cc880559 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档