第十五章多元线性回归分析.ppt

下载文档 降价啦

7
0
约5千字
约 68页
2017-02-25 发布于天津
举报
版权申诉
保障服务

第十五章多元线性回归分析.ppt

1、本文档共68页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十五章多元线性回归分析.ppt

第十五章多元线性回归分析变量：应变量 1 个，自变量m 个，共 m+1 个。样本含量：n 数据格式见表15-1 回归模型一般形式：三、假设检验及其评价 3．标准化回归系数自变量取值的单位及其离散程度是不同的，因此量纲不同的各回归系数之间不能直接比较大小，可对变量进行标准化变换，然后拟合回归方程，这样获得的回归系数称为标准化回归系数。（可说明各自变量相对贡献大小）。变量标准化是将原始数据减去相应变量的均数，然后再除以该变量的标准差。注意：一般回归系数有单位，用来解释各自变量对应变量的影响，表示在其它自变量保持不变时，增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。标准化回归系数无单位，用来比较各自变量对应变量的影响大小，越大，对的影响越大。例15-2 用全局择优法对例15-1数据的自变量进行选择。 1. 影响因素分析例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等，在影响高血压的众多可疑因素中，需要研究哪些因素有影响，哪些因素影响较大。在临床试验中，则可能由于种种原因难以保证各组的指标基线相同，如在年龄、病情等指标不一致出现混杂的情况下，如何对不同的治疗方法进行比较等。这些问题都可以利用回归分析来处理。控制混杂因素(confounding factor)的一个简单办法就是将其引入回归方程中，与其他主要变量一起进行分析 2. 估计与预测如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积；由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。 3. 统计控制逆估计。例如采用射频治疗仪治疗脑肿瘤，脑皮质的毁损半径与射频温度及照射时间有线性回归关系，建立回归方程后可以按预先给定的脑皮质毁损半径，确定最佳控制射频温度和照射时间。 2．样本含量: n =(5～10)m。 3．关于逐步回归: 对逐步回归得到的结果不要盲目的信任，所谓的“最优”回归方程并不一定是最好的，没有选入方程的变量也未必没有统计学意义。例如，例15-3中若将选入标准和剔除标准定为和选入的变量是，而不是，结果发生了改变。不同回归方程适应于不同用途，依专业知识定。 4. 多重共线性即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等，这些自变量通常是高度相关的，有可能使通过最小二乘法建立回归方程失效，引起下列一些不良后果：（1）参数估计值的标准误变得很大，从而t值变得很小。（2）回归方程不稳定，增加或减少某几个观察值，估计值可能会发生很大的变化。（3）t检验不准确，误将应保留在模型中的重要变量舍弃。（4）估计值的正负符号与客观实际不一致。决定系数R2的缺点：当回归方程中包含有很多自变量，即使其中有一些自变量对解释应变量变异的贡献极小，随着回归方程的自变量的增加，R2 值表现为只增不减。全局择优法的局限性如果自变量个数为4，则所有的回归模型有24－1＝ 15个；当自变量数个数为10时，所有可能的回归为 210－1＝ 1023个；……；当自变量数个数为50时，所有可能的回归为250－1≈1015个。二、逐步选择法 1. 1.前进法，回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 2.?后退法，先将全部自变量选入方程，然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归平方和最小的变量，作F检验决定它是否剔除，若无统计学意义则将其剔除，然后对剩余的自变量建立新的回归方程。重复这一过程，直至方程中所有的自变量都不能剔除为止。理论上最好，建议使用采用此法。 3.逐步回归法，逐步回归法是在前述两种方法的基础上，进行双向筛选的一种方法。该方法本质上是前进法。 1.从不包含任何自变量的模型开始（截距） 2.添加具有最大统计学意义的变量进入模型，如p值最小，小于预先给定的进入标准的变量。 3.重复第二步，直到没有p值小于预先给定的进入标准的变量。 1.从整个模型开始（包含研究所涉及所有自变量及其交互项 2.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。如p值最大，大于预先给定的剔除标准的变量。 3.重复第二步，直到没有p值大于预先给定的剔除标准的变量。 1.从不包含任何自变量的模型开始。 2.添加具有最大统计学意义的变量进入模型。 3.剔除