多重线性回归.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多重回归与相关 (Multiple regression and correlation) 一、基本概念: 由于大自然是复杂的,其中的现象大部分不是一对一的关系,不能用线性回归与相关来解决问题。 如:人的体重与身高有关,也与胸围有关;血压值的大小除了与年龄有关外,还受到性别、劳动强度、饮食习惯、吸烟状况、家族史等因素的影响。 多重回归与多重相关是研究一个因变量和多个自变量之间线性关系的统计学分析方法。 1. 多个自变量与一个因变量的数量关系 多重回归 2. 多个自变量与多个因变量的数量关系 多元回归 3. 多个变量与一个变量的相关关系 多重相关 4. 多个变量与多个变量的相关关系 典则相关 5. 扣除其它变量影响后一变量与另一变量的相关关系 偏相关 本章仅讨论多重线性回归、多重线性相关和偏相关。 二、多重线性回归模型与参数估计: (一) 多重线性回归模型: 设观察了n个对象,每个对象观察了因变量Y和p个自变量, 模型表达式: 样本回归方程: β0(a)为截距,β1,β2,…,βp(b1,b2,…,bp)为偏(部分)回归系数,βi(bi)表示除Xi外的其他自变量固定时,Xi改变一个单位后Y的平均变化。 标准回归系数:偏回归系数因各自变量值的单位不同不能直接比较其大小,对变量值作标准化变换,得到的回归系数为标准回归系数,可直接比较其大小,反映各自变量对因变量的贡献大小。 (二) 参数估计的方法: 最小二乘原则 最小。 对方程中的每个待估参数求导并设导数为零,得到一组线性方程组。由于是线性方程组,可以直接求解。具体的计算复杂,手工计算几乎不可能,一般需要计算机软件完成。 例:重庆医科大学附属第二医院的资料,住院人数与门诊人数、病床利用率和病床周转次数的回归关系分析。 参数估计如下: 变量 回归系数 标准误 t P 截距 -4848.944 3128.707 -1.55 0.1407 门诊人数X1 55.886 18.001 3.10 0.0068 病床利用率X2 21.930 39.813 0.55 0.5894 病床周转次数X3 319.047 96.593 3.30 0.0045 得到回归方程: 三、多重线性回归的假设检验: 1. 回归方程的方差分析: 检验假设:H0: H1:不全为0。 (2)计算统计量F值: SSTSSr=SST-SSe9461837(3)确定概率和判断结果: p0.001,拒绝零假设,认为各偏回归系数不全为零,多重回归方程成立。 2. 回归系数的假设检验: (1)检验假设:H0: H1: (2)计算统计量: (3)确定概率和判断结果:P=0.0068,偏回归系数不是来自0的总体。 3. 决定系数计算: 决定系数为: 说明在该医院住院人数的变异有74.1%可以用门诊人数,病床利用率及病床周转次数来解释。 由于引进变量越多,决定系数肯定越大,决定系数不能反映回归方程的优良性。特别是作模型间的比较时,用校正决定系数较好。 四、回归分析中的变量筛选: 多重回归分析时,不是引入模型的变量越多越好。与Y不相干的变量引入模型不但不能改善模型的预测效果,可能还会增加预测误差。 因此筛选“较优”的模型是多重回归分析的重要任务之一。 (一)筛选变量的统计学标准: 1. 决定系数或SSE最小。 2. MSE最小。等价于。 3. Cp最小。1973年由Mallows C L提出,目前认为是较好的标准。 此统计量由两部分组成,当入选自变量增多即p增大时,上式中第一项变小,第二项变大;而p减小时,上式中第一项变大,第二项变小。想得到较小的Cp值,必须是这两项的折衷,即入选自变量的数目p较为适中,不能过大也不能过小。 (二)逐步筛选变量的方法: 1. 所有可能子集法:较好的方法。但计算量大。 2.后退法(Backward): 开始全部引入,然后逐个剔除(偏回归平方和最小,FF剔除),使方程内无统计学意义的变量全部剔除为止。 3.向前法(Forward):从引入一个自变量(偏回归平方和最大,FF引入)开始,自变量由少到多逐个引入,使方程外有统计学意义的变量全部引入为止。 优点:计算量小。缺点:一次只能引入一个变量。 4.逐步法(Stepwise):开始一个或全部变量引入,然后上述两种方法交替使用,引入变量后立即考虑是否要剔除,剔除变量后立即考虑是否要引入,直到方程内的变量全部有统计学意义,方程外的变量全部无统计学意义为止。较好的方法。 五、多重回归分析的主要用途: 筛选有关变量(主要用途)。 获得有实际意义的回归方程。 六、多重回归分析的一般步骤: 单

文档评论(0)

aena45 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档