- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类树中CRT算法与判别分析的比较及其医学应用.doc
分类树中CRT算法与判别分析的比较及其医学应用
【摘要】 目的:探讨分类树中CRT算法和判别分析在数据分析应用中的区别。方法:首先介绍模型的基本原理,据此对方法间的优缺点进行比较,然后采用实例进行分析介绍,并报告模型的树型图,10折交叉验证的预测准确率。结果:CRT 算法是非参数、非线性的,对变量不同属性的适应是非常灵活地;CRT在构造树模型时是单变量拆分和递归的,故能够明显细分危险因素。结论:CRT 算法和判别分析模型各有优势,根据数据特点及专业背景合理分析与解释,将能保证分析的正确性和完善性。
【关键词】 CRT 算法 线性判别分析 交叉验证 错分率
在分类方法中传统的判别分析是最常用的,其核心思想是,先根据某些类别归属已知的对象建立判别函数,再将要进行分类的相应指标值带入此判别函数,根据所得函数值判断该对象所应归入的类别。对于常用的线性判别分析,如Bayes判别、典则判别、逐步判别分析要求原始变量在各组内具有近似正态分布,同时具有相同的协方差矩阵等条件,而实际中很多数据不能满足其算法条件,使其统计结果误差偏大。再者对于二次判别函数和非参数判别分析,由于其 计算 复杂,较少有教科书涉及,使其在应用中受到限制。而分类树CRT算法作为数据挖掘中重要的分析方法,由于其算法是非参数,非线性的,加之其判别准则以图形化结果呈现,结果易于表述与解释,该法可以作为传统判别分析的补充,因而受到统计分析人员的青睐。本研究将两者作以初步比较与探讨,以便为数据分析提供理论依据。
1 原理与方法
CRT算法简介[1~3]:分类与回归树CART(Classification and Regression Trees)由最早由BrEiman等人于1984提出,Ripley在1996年进行了修改。变量分为预测变量(predict variable)和应变量(dependent variable),该模型使用二叉树将预测空间递归地划分为若干子集,而树中的叶节点对应着划分的不同区域,划分是由与每个内部节点相关的分支规则(Splitting Rules)来确定的,通过从树根到叶节点移动,一个预测样本被赋予一个惟一的叶节点,应变量在该节点上的条件分布也即被确定。CRT算法包含3部分内容:分枝变量及拆分点的选择、树的修剪和模型树的评估。
1.1 分枝变量及拆分点的选择
分类树理想的结果是使得树中每一个叶节点要么是纯节点(节点内部样本的应变量属于同一个类),要么很小(节点内部所含样本个数小于事先给定的n值)。在从众多的预测变量中选择这个最佳分组变量时,CRT算法采用基尼系数来进行评判。基尼系数越小,表明该节点越纯,则该预测变量就是当前属性的最优分割点。对基尼系数的介绍可 参考 有关 3 分析实例
通过下面的实例数据来说明CRT方法的应用,数据来源于我校附属 医院 ,采用SPSS公司Ans)、平扫密度、颈部淋巴结肿大与否、边界状态(清、不清)、CT增强幅度。将良、恶性肿瘤属性作为应变量,其余属性作为预测变量,其中年龄、肿瘤的最大径、增强幅度为连续性计量数据,其余为分类计数数据。由于本例样本量较小,采用10折交叉验证对模型进行评估其误差率。此处简要报告CRT方法的主要分析结果,表1为CRT模型的预测分类与实际分类结果,图1为树形图。该决策树图为采用CRT方法进行的分类结果,由模型树图可得出以下结论:恶性肿瘤大多伴有淋巴结肿大、肿瘤直径大、边界不清、CT增强幅度大再检测的特征。
表1 CRT模型的预测分类与实际分类结果(略)
经10折交叉验证,估计误差(Risk Estimate)及其标准误(SE of Risk Estimate)分别为0.918、0.029,模型的正确率近91%。
将该资料采用Bayes线性判别分析,得判别函数为:
Z1=-37.009+27.635X1+8.501X2+1.842X3+0.226X4
Z2=-38.286+20.648X1+12.823X2+2.632X3+0.339X4
公式中Z1、Z2分别代表良、恶性;X1为是否伴有淋巴结肿大, X2边界是否清晰, X3肿瘤最大径, X4为CT的增强幅度。采用交叉验证模型的准确率为89.2%。由于本资料数据量小,变量间的关系简单,两种模型的分析结果基本一致。相比于判别分析,CRT方法的树型分类结果直观且宜于解释,由于分类树算法仅就节点处自身的数据进行分析,故在进行危险因素分析时,分类树结果更能强调危险因素,故从根节点到叶节点可明显区分恶性肿瘤与良性肿瘤的特征,即恶性肿瘤大多伴有淋巴结肿大、肿瘤直径大、边界不清,CT增强幅度大一些时可清晰确诊。该模型对实际的临床诊断有一定的指导意义
文档评论(0)