- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类及回归树分析方法及其在医学探究中应用
分类及回归树分析方法及其在医学探究中应用
作者:武艳华 史宝林 葛丽平;
【关键词】; 线性模型;logistic模型;比例危险度模型
对多因子疾病如高血压、恶性肿瘤等的病因研究以及临床研究,目前多采用诸如线性回归、logistic回归、cox回归等模型进行危险因素的筛选;当变量间线性关系不成立时,选用线性回归模型显然不适宜;选用加入交互作用项或采用变量变换的logistic回归、cox回归等模型,此时交互作用项往往与危险因素存在共线性;而这些分析方法的一个共同缺陷是无法处理变量之间的共线性,对多水平变量间复杂的交互作用分析困难,因而所得分析结果有时出现难以解释的现象。分类与回归树(classification and regression trees,CART)[1~3],是一种既包含了多种多因素统计分析方法的优点,又能克服其缺陷的新的统计分析方法,有效的解决了多变量分析数据之间共线性的问题。
; 1; 分类与回归树的结构与组成
; CART[4~8]是一种树型分析方法,由分类树(classification tree)和回归树(regression tree)两部分构成。在树型分析中,自变量x与反应变量y既可以是数值变量,也可以是分类变量;分类树用于反应变量y是分类变量的数据分析,回归树则用于反应变量y是数值变量的数据分析。CART分析结果可以图示直观表示,其结构类似一棵倒置的树,由主干和许多分支组成。在树中有许多节点即树结(tree node),以椭圆形框和方形框表示,椭圆形框为中间结、长方形框为终止结(end node)。每个树结中的数字为分析结果,在椭圆形框下方标有判别条件,树结间有实线连接。终止结内为病例数和对照数,其下方为患病率。模型的结果中给出学习集(先验概率)和检验集(后验概率)的具体判断情况。
; 2; 分类与回归树的特点及其在医学研究中的应用
; CART可广泛应用于医学研究中,如医疗诊断与预后的判别、多因子疾病的病因研究以及自然科学领域的各种分类问题等。
; CART分析的目的是将研究人群通过设定的危险因素分成数个相对同质的亚人群。每个亚人群称为一个节点,整个人群称为根节点(root)。分析方法可分为两步进行:即种树(growing tree)和剪枝(pruning and shrinking)。种树将全部观察对象分成同质的亚人群,以便每一亚人群都最大限度地同质。剪枝过程决定亚人群的最后确定,即将一个人群分成非常小的多个亚人群。
; 在临床诊断中,目前诊断疾病主要依据疾病的临床表型,以此为依据诊断患某种疾病的一组患者,但由于作为研究对象的患者其生物学特征、遗传性状、病理组织结构、对治疗的反应及临床转归等存在多样性,同种疾病的患者其临床表型可相差较大,因此同质性有时较差;线性回归、Logistic回归、cox回归等常用统计分析方法,应用的前提条件之一是要求研究对象具有同质性特征,而临床医学研究的对象—病例常不具备这一条件。CART则通过种树、剪枝过程,改善每个亚人群观察对象的同质性。
; 诊断疾病时,医生常根据患者的病史和临床表现先进行一些灵敏度和特异性较高的检查,多数患者即可获得诊断,少数不能确诊的病例,进行进一步检查,直至作出明确诊断。CART的树型分析过程与医生的临床思维过程十分相似,也符合循证医学的理论。
; 对于流行病学研究资料,CART分析的原则是根据某一因素分出同质性高的人群,即该因素在人群中对疾病的作用方式一致,如暴露越大,则发病越多。如果某因素在不同人群中的作用方式不一样,如在某一人群中是暴露越多发病越多;而在另一人群中则是暴露越少发病越多,或这种趋势并不明显,此时这两个人群就要被分开。将各研究因素进行CART分析,对整个人群进行分类,最终将研究人群划分为具有不同发病概率的亚人群。
; 3; 实例分析
; 3.1; 高血压危险因素的CART分析
; 贾崇奇[9]所做的高血压危险因素分类树分析结果表明,高血压的主要危险因素按其在分类树中的相对重要性为:超重、中心型肥胖、饮酒、吸烟、高血脂症、年龄与性别。高血压主要危险人群依次为:(1)超重+中心型肥胖+饮酒者;(2)超重+中心型肥胖+高年龄及其男性吸烟者;(3)超重+高血脂症者;(4)中心型肥胖+饮酒+吸烟者。通过CART分析,将人群分为高血压患病风险不同的多个亚人群(不同的节点),即不同类型的高危人群,为采取针对性较强的防控措施提供了依据。
; 3.2; 米非司酮配伍前列腺素终止早孕时阴道出血时间延迟危险因素的CART分析
; 赵一鸣[6]所做的米非司酮配伍前列腺素终止早孕时阴道出血时间延迟危险因素的回归树分析结果显示,胎囊大小是影响出血时间最重要的因素;以12.5mm胎囊直径为界将观察人群分为两个节点
文档评论(0)