- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析对决策树算法精度的影响
摘要:本文使用风投企业风险识别案例,用四种决策树算法,对比了提取主成分前后算法精度的变化。结果表明,提取主要成分后,四种算法中只有c5.0算法的精度获得了提高,而其他三种算法提取主成分后的精度反而有所下降,并且c5.0算法在未提取主成分时的精度已高于其他三种算法,可见在风险识别案例中先提取主成分再使用c5.0算法后精度较其他三种算法高。
关键词:风险识别;主成分分析;决策树算法
0引言
数据挖掘中比较热门的就是分类算法的研究,而决策树算法是分类算法中最重要的。常见的决策树算法有四种:cart、c5.0、chaid和quest。每种算法针对不同的数据类型,精度也不同。如何提升算法的预测精度,是许多学者都尝试解决的问题。有些使用集成学习算法,如boosting,bagging,如赵敏等(2007)[1]研究adaboost算法在决策树中的应用,刘余霞等(2012)[2]使用bagging集成学习研究字符识别,李诒靖等(2016)[3]使用boosting算法解决分类问题。有些将决策树和其他模型结合在一起,如顾雨等(2010)[4]、张俊深等(2016)[5],都是将多种方法用于分类和预测。另一种提高精度的方法是在数据分析前将主成分分析法引入,先提取主要成分,然后做决策树分析。本文基于创业企业风险识别数据,从实证方面研究主成分分析对决策树算法精度的影响。
1理论基础
1.1cart算法
cart算法即分类与回归树,它包含了分类树和回归树,分类树用于目标变量是分类型的,回归树用于目标变量是连续型的。cart的生长是二叉树,如果目标变量是分类型,则以gini系数来确认分割点,如果目标变量是数值型,则以方差来确认分割点。
1.2c5.0算法
c5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类型变量,使用c5.0算法可以生成决策树或者规则集。
1.3chaid算法
chaid算法其核心思想是根据给定的目标变量和解释变量对样本进行最优分割。利用卡方自动交互检测法可以快速、有效地挖掘出主要影响因素,它不仅可以处理非线性和高度相关的数据,而且还可以将缺失值考虑在内。
1.4quest算法
quest算法是二叉树算法。它通过将判别坐标分配给预测变量类别,将分类变量转换为连续变量,然后利用二次判别分析qda来确定分割点。quest树算法的一个优点是它是无偏的,不像cart算法那样偏向于选择允许更多分裂的分裂变量以及缺失值更多的分裂变量。
2实证分析
2.1数据来源及描述
本文研究数据来自某风投公司提供的所投资创业企业数据。风险投资是风投公司为创业企业提供的投资服务,一段时期后,创业企业将面临成功或失败两种可能,风投企业进行的风险识别是将创业成功与否的离散变量作为因变量,企业创业因素作为自变量,进行决策树分析判断,进而研究创业成功与否的影响因素。
2.1.1指标汇总
对风投公司提供的数据脱敏、预处理后,整理指标如下表。
2.1.2基本描述
剔除缺失值、无效数据后,得样本总量209,正样本99,负样本110。
2.2主成分提取
2.2.1kmo检验
对数据计算kmo检验得到如下结果。
2.2.2提取主成分
主要成分解释总方差表如下表。
根据结果提取数据10个主要成分,主要成分占原始信息的69.830%。
2.3实证结果对比
首先对未提取主成分的原始数据分别做cart、c5.0、chaid和quest的决策树运算,再对提取了主成分的数据进行上述四种决策树算法,其结果对比
如下。
分析结果可得:
第一,与未提取主成分相比,提取主成分后四种算法中,只有c5.0算法的精度获得了提高;而其他三种算法,提取主成分后的精度反而有所下降。
第二,从上述8个结果中可以看出,c5.0算法在未提取主成分时的精度已高于其他三种算法,可见在该案例中先提取主成分再使用c5.0算法后精度较其他三种算法高。
3结论
本文使用风投企业投资成功与否案例,利用四种决策树算法,对比了提取主成分前后,算法精度的变化。结果表明,提取主要成分后,四种算法中只有c5.0算法的精度获得了提高,而其他三种算法提取主成分后的精度反而有所下降,并且c5.0算法在未提取主成分时的精度已高于其他三种算法,可见在该案例中先提取主成分再使用c5.0算法后精度较其
文档评论(0)