分类树中CRT算法与判别分析的比较及其医学应用.docVIP

下载本文档

21
0
约 3页
2017-05-07 发布于广东
举报
版权申诉

分类树中CRT算法与判别分析的比较及其医学应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类树中CRT算法与判别分析的比较及其医学应用.doc

　　分类树中CRT算法与判别分析的比较及其医学应用【摘要】　　目的：探讨分类树中CRT算法和判别分析在数据分析应用中的区别。方法：首先介绍模型的基本原理，据此对方法间的优缺点进行比较,然后采用实例进行分析介绍，并报告模型的树型图，10折交叉验证的预测准确率。结果：CRT 算法是非参数、非线性的，对变量不同属性的适应是非常灵活地；CRT在构造树模型时是单变量拆分和递归的，故能够明显细分危险因素。结论：CRT 算法和判别分析模型各有优势,根据数据特点及专业背景合理分析与解释，将能保证分析的正确性和完善性。【关键词】 CRT 算法线性判别分析交叉验证错分率　　在分类方法中传统的判别分析是最常用的，其核心思想是，先根据某些类别归属已知的对象建立判别函数，再将要进行分类的相应指标值带入此判别函数，根据所得函数值判断该对象所应归入的类别。对于常用的线性判别分析，如Bayes判别、典则判别、逐步判别分析要求原始变量在各组内具有近似正态分布，同时具有相同的协方差矩阵等条件，而实际中很多数据不能满足其算法条件，使其统计结果误差偏大。再者对于二次判别函数和非参数判别分析，由于其计算复杂，较少有教科书涉及，使其在应用中受到限制。而分类树CRT算法作为数据挖掘中重要的分析方法，由于其算法是非参数，非线性的，加之其判别准则以图形化结果呈现，结果易于表述与解释，该法可以作为传统判别分析的补充，因而受到统计分析人员的青睐。本研究将两者作以初步比较与探讨，以便为数据分析提供理论依据。　　 1 原理与方法　　CRT算法简介［1～3］：分类与回归树CART（Classification and Regression Trees）由最早由BrEiman等人于1984提出，Ripley在1996年进行了修改。变量分为预测变量（predict variable）和应变量（dependent variable），该模型使用二叉树将预测空间递归地划分为若干子集，而树中的叶节点对应着划分的不同区域，划分是由与每个内部节点相关的分支规则（Splitting Rules）来确定的，通过从树根到叶节点移动，一个预测样本被赋予一个惟一的叶节点，应变量在该节点上的条件分布也即被确定。CRT算法包含3部分内容：分枝变量及拆分点的选择、树的修剪和模型树的评估。　　1.1 分枝变量及拆分点的选择　　分类树理想的结果是使得树中每一个叶节点要么是纯节点（节点内部样本的应变量属于同一个类），要么很小（节点内部所含样本个数小于事先给定的n值）。在从众多的预测变量中选择这个最佳分组变量时，CRT算法采用基尼系数来进行评判。基尼系数越小，表明该节点越纯，则该预测变量就是当前属性的最优分割点。对基尼系数的介绍可参考有关　　 3 分析实例　　通过下面的实例数据来说明CRT方法的应用，数据来源于我校附属医院，采用SPSS公司Ans）、平扫密度、颈部淋巴结肿大与否、边界状态（清、不清）、CT增强幅度。将良、恶性肿瘤属性作为应变量，其余属性作为预测变量，其中年龄、肿瘤的最大径、增强幅度为连续性计量数据，其余为分类计数数据。由于本例样本量较小，采用10折交叉验证对模型进行评估其误差率。此处简要报告CRT方法的主要分析结果，表1为CRT模型的预测分类与实际分类结果，图1为树形图。该决策树图为采用CRT方法进行的分类结果，由模型树图可得出以下结论：恶性肿瘤大多伴有淋巴结肿大、肿瘤直径大、边界不清、CT增强幅度大再检测的特征。　　表1 CRT模型的预测分类与实际分类结果（略）　　经10折交叉验证，估计误差（Risk Estimate）及其标准误（SE of Risk Estimate）分别为0.918、0.029，模型的正确率近91%。　　将该资料采用Bayes线性判别分析，得判别函数为：　　Z1=-37.009+27.635X1+8.501X2+1.842X3+0.226X4 　　Z2=-38.286+20.648X1+12.823X2+2.632X3+0.339X4 　　公式中Z1、Z2分别代表良、恶性；X1为是否伴有淋巴结肿大, X2边界是否清晰, X3肿瘤最大径, X4为CT的增强幅度。采用交叉验证模型的准确率为89.2%。由于本资料数据量小，变量间的关系简单，两种模型的分析结果基本一致。相比于判别分析，CRT方法的树型分类结果直观且宜于解释，由于分类树算法仅就节点处自身的数据进行分析，故在进行危险因素分析时，分类树结果更能强调危险因素，故从根节点到叶节点可明显区分恶性肿瘤与良性肿瘤的特征，即恶性肿瘤大多伴有淋巴结肿大、肿瘤直径大、边界不清，CT增强幅度大一些时可清晰确诊。该模型对实际的临床诊断有一定的指导意义