当回归分析模型遇到连续型自变量,我该怎么办?.docxVIP

当回归分析模型遇到连续型自变量,我该怎么办?.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
当回归分析模型遇到连续型自变量,我该怎么办? 如何科学的构建回归模型系列 1.一道饕餮大餐来了!手把手教你如何科学地构建回归模型! 2.一文汇总三大回归的基本应用条件、诊断与处理方法 3.回归分析时何时设置哑变量?如何设置? SPSS 教程37 回归模型连续型自变量的处理方式 上一推文,我介绍了自变量是无序分类变量的哑变量设置方法。本文轮到讨论连续型的定量变量了。 很多朋友对于回归建模中自变量是连续型变量的处理,非常简单粗暴,直接将自变量不作任何处理纳入回归分析中。这种方式应该是作为流行的做法。然而最终简单粗暴的方法毫无任何美感。 一个回归分析模型美不美,关键点之一是我们如何对待连续型自变量。这里面有一些技巧,是大家需要重视的。连续型自变量,首先要要明确,与研究结局Y是否具有线性关系。 关于线性关系,我已经讲了很多次,无论是线性回归、logistic回归和Cox回归,都要明确自变量与结局存在着大致的线性关系。 如何判定自变量与结局是否有线性关系呢? 线性回归分析,一般采用绘制X与Y的散点图,诸位可以学习本推文相应的文章: 线性回归时,你还不会做残差分析?来看基本教程! logistic回归,一般需要借助交互效应来查看线性问题,相应学习文章如下 Logistic 回归简明教程:原理、SPSS操作、结果解读与报告撰写 特别是线性问题,可以看看代表性文章的说法构建logistic回归模型很简单?高分SCI文章的做法远远比你想的多 Cox回归,同样,我对线性回归条件进行了介绍生存分析COX回归,小心你的数据不符合应用条件 此外,对于线性关系是否成立,诸位可以通过哑变量设置的方法进行识别。这种方法,便是将自变量转为有序多分类变量,并且设置最低值或者最大值组为对照组,进行分析。若各哑变量回归系数b值间隔差不多等距,即可以认为线性关系成立。关于哑变量设置与线性关系条件成立的研究,诸位可以查看本系列推文:回归分析时何时设置哑变量?如何设置?手把手教会SPSS分析 有些时候线性条件成立、有些时候线性条件不成立。现在我根据实际情况,介绍处理连续型自变量的若干种方法。 连续型自变量纳入回归模型的n种方法 1 分析案例 例3:研究究高血压患者血压与性别、年龄、身高、体重、户籍等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,户籍X4试建立多重线性回归方程。数据文件见reg.sav。 本例中年龄和体重指数是连续型变量,本文针对年龄开展分析。对于年龄与高血压的关系,有以下几种方法可以推荐给大家。 2 当自变量与应变量线性关系成立 第一种,当线性关系条件成立,最基本的方法是直接纳入。直接纳入法是最原始的方法,当然线性关系成立,不用担心这样直接纳入是否合适。本例显示,年龄每增加一岁,血压增加1.697 mmHg。 第二种,线性关系成立时,等级变量法。当线性关系条件成立,很多时候直接纳入自变量的方法,得到的回归系数,意义不大。比如,年龄每增加一岁,血压增加1.697 mmHg。没有太大的临床意义。如果我们现将年龄进行进行转换,变成有序多分类变量,也是不错的办法。比如,由于年龄在41-65岁之间,我把年龄变为41-45岁,46-50岁,51-55岁,56-60岁,61-65岁一组,然后再开展分析。我们就可以发现,结果解释的大致相同。本例显示,年龄每增加5岁,血压增加8.089 mmHg。这样的说法在临床上更有意义。 本方法有另外一种说法,叫做趋势性检验分析。 本方法需要注意等级变量等距的问题,若不等距,可能会得到错误的结果。 第三种,线性关系成立时,哑变量设置的方法。这种方法即在第二种方法的基础上进行哑变量设置分析,比如我们以41-45岁作为对照,开展哑变量分析。可以发现,哑变量设置的方法为我们提供了更多关于变量影响的信息。比如研究可以发现,实际上,不是所有的组别都和41-45岁相比,血压都增高的,45-50岁组与41-45岁相比,没有发现统计学差异(P=0.125)。 这种方法也有风险,它需要更大的样本量,它可能会由于各组别样本量不足而导致无统计学差异的结果。很多人会奇怪,比如下面的结果: 诸位可以看到,年龄第5等级时,b=25.767,是一个较大值,暗示p=0.065, 没有统计学意义。虽然看起来随着年龄增加,血压是在不断上上升,但是由于年龄第5等级时,样本量过小,抽样误差过大(标准误差=13.68),远远大于其他组别,因此P值也变得很奇怪。碰到这种情况,还是我还是推荐不设置哑变量的处理方法。 第四种,线性关系成立时,双重法。同时开展第三种方法(哑变量设置)和第二种方法(趋势检验法)。两者结合,珠联璧合!同时能够体现各亚组的效应,也可以体现总体上的线性关系。强烈推荐! 3 当自变量与应变量线性关系不成立 当线性关系不成立,也

您可能关注的文档

文档评论(0)

mmhaijing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档