- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元线性回归分析(第15章).ppt
对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇 (X1)。胰岛素为负向影响。 第二节 自变量选择方法 一、全局选择法 对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。 R2可用来评价回归方程优劣。 随着自变量增加,R2不断增大,对两个不 同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对R2进行校正。 所谓“最优”回归方程指 最大者。 1.校正决定系数 选择法 P为方程中自变量个数。 最优方程的Cp期望值是p+1。 应选择Cp最接近P+1的回归方程为最优。 2. 选择法 二、逐步选择法 全局选择计算量很大: 6个变量,计算26-1=63个方程; 10个变量,计算210-1=1023个方程。 按选入变量顺序不同分前进法、后退法 与逐步回归法,共同特点是每一步只引 入或剔除一个自变量Xj。 对Xj的取舍要进行F检验: 计算进行到第l步时: p :方程中自变量个数 SS回:Xj的偏回归平方和 SS残:残差平方和 1.前进法(只选不剔) 开始方程中无自变量,然后从方程外选取偏 回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。 缺点:后续变量的引入可能使先前引入的变 量变的不重要。 Xj入选 2.后退法(只剔不选) 开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。 缺点:当某些自变量高度相关时,可能得不 出正确结果。 Xj剔除 3.逐步回归法(先选后剔,双向筛选) 开始方程中无自变量,从方程外选取偏回归 平方和最大的自变量作F检验以决定是否选入 方程; 每引一个自变量进入方程后,从方程中选取 偏回归平方和最小的自变量作F检验以决定是 否从方程中剔除; 直至方程外无自变量可引入,方程内无自变 量可剔除为止。 Xj剔除 内剔 Xj入选 外引 α入值定的越小选取自变量标准越严,被选 入方程内自变量数越少。 α入值越大则反之。 小样本:α入=0.05,α出=0.10。 大样本:α入=0.10,α出=0.15。 α入α出,以免Xj上一步剔除后下一步又被选入 选X4前先建立4个直线回归方程; 选X1前先建立1个含3个自变量、 3个含2个 自变量的多元线性回归方程。 第三节 多元线性回归的应用及注意事项 一、多元线性回归的应用 1.影响因素分析 年龄(X1) 饮食习惯(X2) 吸烟状况(X3) 工作紧张度(X4) 家族史(X5) ? 高血压(Y) bj的意义为在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。故可排除混杂因素。 2.估计与预测 心脏表面积(Y)=b0+b1心脏横径(X1) + b2心脏纵径(X2)+ b3心脏宽径(X3) 新生儿体重(Y)=b0+b1胎儿孕龄(X1)+ b2 胎儿 头径(X2)+ b3胎儿胸径(X3)+ b4胎儿腹径(X4) 3.统计控制 利用回归方程进行逆估计,确定Y后控制X 。 采用射频治疗仪治疗脑肿瘤: 脑皮质毁损半径(Y) =b0+b1射频温度(X1)+ b2照射时间(X2) 二、多元线性回归应用的注意事项 1.指标的数量化 应变量Y为连续变量 自变量X可为连续、有序分类或无序分类变量 (1)连续变量:X (2)有序分类变量: 1 轻 X= 2 中 3 重 (3)无序分类变量 哑变量(dummy variables) 2.样本含量 n至少是X个数m的5~10倍 3.多重共线性 实际应用中非常普遍,可使最小二乘法建 立的回归方程失效; 消除方法:主成分回归;剔除某个造成共 线性的自变量。 4.变量间的交互作用 某一自变量对Y的作用大小与另一自变量的取值有关。 血糖(Y)与总胆固醇 (X1)、甘油三酯(X2)、胰岛素(X3)、糖化血红蛋白(X4)间逐步回归方程: X3与X4间有交互作用: 5.残差分析 标准化残差 e’ 0 0 0 0 0 e’ e’ e’ e’ 讲课内容 第一节 多元线性回归(重点) 第二节 自变量选择方法(重点) 第三节 多元线性回归的应用及注 意事项 Thank you! * Multiple Linear Regression Analysis
文档评论(0)