- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类与回归树分析方法及其在医学研究中的应用.doc
分类与回归树分析方法及其在医学研究中的应用
作者:武艳华 史宝林 葛丽平
【关键词】 线性模型;logistic模型;比例危险度模型
对多因子疾病如高血压、恶性肿瘤等的病因 研究 以及临床研究, 目前 多采用诸如线性回归、logistic回归、cox回归等模型进行危险因素的筛选;当变量间线性关系不成立时,选用线性回归模型显然不适宜;选用加入交互作用项或采用变量变换的logistic回归、cox回归等模型,此时交互作用项往往与危险因素存在共线性;而这些 分析 方法 的一个共同缺陷是无法处理变量之间的共线性,对多水平变量间复杂的交互作用分析困难,因而所得分析结果有时出现难以解释的现象。分类与回归树(classification and regression trees,CART)[1~3],是一种既包含了多种多因素统计分析方法的优点,又能克服其缺陷的新的统计分析方法,有效的解决了多变量分析数据之间共线性的 问题 。
1 分类与回归树的结构与组成
CART[4~8]是一种树型分析方法,由分类树(classification tree)和回归树(regression tree)两部分构成。在树型分析中,自变量x与反应变量y既可以是数值变量,也可以是分类变量;分类树用于反应变量y是分类变量的数据分析,回归树则用于反应变量y是数值变量的数据分析。CART分析结果可以图示直观表示,其结构类似一棵倒置的树,由主干和许多分支组成。在树中有许多节点即树结(tree node),以椭圆形框和方形框表示,椭圆形框为中间结、长方形框为终止结(end node)。每个树结中的数字为分析结果,在椭圆形框下方标有判别条件,树结间有实线连接。终止结内为病例数和对照数,其下方为患病率。模型的结果中给出 学习 集(先验概率)和检验集(后验概率)的具体判断情况。
2 分类与回归树的特点及其在医学研究中的 应用
CART可广泛应用于医学研究中,如医疗诊断与预后的判别、多因子疾病的病因研究以及 自然 科学 领域的各种分类问题等。
CART分析的目的是将研究人群通过设定的危险因素分成数个相对同质的亚人群。每个亚人群称为一个节点,整个人群称为根节点(root)。分析方法可分为两步进行:即种树(grom胎囊直径为界将观察人群分为两个节点,胎囊直径小于12.5mm时出血时间较短(终结点),胎囊直径大于12.5mm时出血时间较长。在胎囊直径大于12.5mm的情况下,经期小于5d则出血时间较短(终结点),经期5d及以上者出血时间较长。对于经期5d及以上患者,前列腺素种类和给药途径对出血时间有较大的影响,阴道栓剂的效果较好而口服的效果较差。结果表明:胎囊直径大于12.5mm+经期5d及以上+口服给药可使米非司酮配伍前列腺素终止早孕时阴道的出血时间延迟。
4 讨论
CART与其它多因素统计 分析 方法 相比,具有以下主要特点:
(1)CART是根据人群的同质性进行亚人群划分的,在人群中作用方式不同的危险因素可作为分类变量。
(2)CART既可独立用于分析 影响 疾病发生、 发展 及预后的多种因素及其相对重要性,也可与其它统计模型联合 应用 ,更加深入地进行全面分析。
(3)CART是处理危险因素共线性和交互作用的一种有效方法。在多因素的回归分析中,由于自变量间的共线性,可使某一因素的作用被掩盖,回归系数的正确估计受到影响;CART分析不会因自变量间的共线性而影响。在CART分析中,可将所有变量纳入分析过程,发现各危险因素对于疾病的作用,评价交互作用和避免共线性对结果的影响。
(4)CART分析是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失数据。缺失数据是临床 研究 中常见的 问题 。CART采用替代变量(surrograte variable)来解决分析中出现缺失数据的难题。
(5)CART的 理论 模型不要求自变量与应变量具有某种特定的分布,因而CART可以用于任何分布类型的资料。(6)CART的缺陷:CART适用于大样本资料,样本量较小时模型缺乏稳健性;自变量x较小的变化可引起模型较大的变化,用类似研究资料建立的树型模型往往存在差异;CART不能有效反映高度线性关系的数据结构;对于内部同质性较好的数据,CART分析的结果与其它分析方法得到的结果基本一致;对于某一因素单独作用效应的定量解释不及logistic回归模型明确。因此,多因素统计分析方法应根据资料的特点和分析目加以选择,不可片面认为CART均优于其它统计分析方法,而试验和比较则是找出最佳分析方法的有效途径[4~10]。
目前 ,CART分析方法正受到广泛关注,在医学研究领域中的应用也越来越多,我们期待着这一新的分析方法能够发挥更大的作用,
文档评论(0)