第十五章多元线性回归分析.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十五章多元线性回归分析.ppt

第十五章 多元线性回归分析 变量:应变量 1 个,自变量m 个,共 m+1 个。 样本含量:n 数据格式见表15-1 回归模型一般形式: 三、假设检验及其评价 3.标准化回归系数 自变量取值的单位及其离散程度是不同的,因此量纲不同的各回归系数之间不能直接比较大小,可对变量进行标准化变换,然后拟合回归方程,这样获得的回归系数称为标准化回归系数。(可说明各自变量相对贡献大小)。 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。 注意: 一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时Y的平均变化量 。不能用各 来比较各 对 的影响大小。 标准化回归系数无单位,用来比较各自变量对应变量的影响大小, 越大, 对 的 影响越大。 例15-2 用全局择优法对例15-1数据的自变量进行选择。 1. 影响因素分析 例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。 在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。 这些问题都可以利用回归分析来处理。控制混杂因素(confounding factor)的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析 2. 估计与预测 如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。 3. 统计控制 逆估计。 例如采用射频治疗仪治疗脑肿瘤,脑皮质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。 2.样本含量: n =(5~10)m。 3.关于逐步回归: 对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为 和 选入的变量是 , 而不是 , 结果发生了改变。 不同回归方程适应于不同用途,依专业知识定。 4. 多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果: (1)参数估计值的标准误变得很大,从而t值变得很小。 (2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。 (3)t检验不准确,误将应保留在模型中的重要变量舍弃。 (4)估计值的正负符号与客观实际不一致。 决定系数R2的缺点: 当回归方程中包含有很多自变量,即使其中有一些自变量对解释应变量变异的贡献极小,随着回归方程的自变量的增加,R2 值表现为只增不减。 全局择优法的局限性 如果自变量个数为4,则所有的回归模型有24-1= 15个;当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。 二、逐步选择法 1. 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 2.?后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。 1.从不包含任何自变量的模型开始(截距) 2.添加具有最大统计学意义的变量进入模型,如p值最小,小于预先给定的进入标准的变量。 3.重复第二步,直到没有p值小于预先给定的进入标准的变量。 1.从整个模型开始(包含研究所涉及所有自变量及其交互项 2.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。如p值最大,大于预先给定的剔除标准的变量。 3.重复第二步,直到没有p值大于预先给定的剔除标准的变量。 1.从不包含任何自变量的模型开始。 2.添加具有最大统计学意义的变量进入模型。 3.剔除

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档