- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类回归树在高校计算机联考数据分析中的应用.pdf
计算机时代 2010年 第 1期 ·33 ·
分类回归树在高校计算机联考数据分析中的应用★
符保龙 。陈如云
(柳州职业技术学院,广西 柳州 545006)
摘 要:分析了分类回归树的基本结构及树的构建方法,并将其应用到高校计算机联考的数据分析中。结果表明,该方
法能够较好的对数据进行分类,所生成的分类规则有助于今后教学和学生工作的开展。
关键词:决策树;分类回归树;考试 ;数据分析
Application ofCART in DataAnalysisofCollegeComputer JointExamination
FU Bao—long,CHEN Ru-yun
(LiuzhouVocation TechnicalCollege.Liuzhou.Guangxi5450O6,China)
Abstract:Thebasicstructureand tree constructing method ofCART are analyzed,and itis applied to the dataanalysis ofcollege
computerjointexamination.The resultsshow thatthemethod can betterclassifydata,generatedclassificationruleswillhelp
teaching and studentwork in hte future.
Key words:decision tree;CART;test;data analysis
0引言 分支规则。选择分割的时候 ,每个字段都要考虑,对字段中的
全国高校计算机联合考试广西考区考试(简称高校联考) 值先排序,再分别计算 ,选出最佳的分割点进行分割。
是关于汁算机基础知识和基本应用技能的一种考试,可从一个 CART树需要使用基尼Gini系数。如果集合T包含N个类
侧面反应出区内各高校学生的计算机应用水平。目前我院对 别的记录,那么Gini系数就是:
高校联考考试情况的分析比较简单,不够全面。应用数据挖掘 Gini(T):1一∑P (1)
技术的决策树分类法,对高校联考信息进行挖掘,寻找影响学 i-1
生通过率的重要因素,可对今后的教学提出指导性建议。 其中,pj是T中第N类数据的频率。对于节点T而言,其Gini(T)
值越小,意味着该节点中所包含的样本越集中,即该节点越钝。
1分类与回归树算法
设分支条件 ∈将节点t分成tL和tR两个子节点,其中分到tl_中的
分类回归树…(ClassificationandRegressionTrees,CART) 概率是P;分到tR的概率是P,称Ai(∈,t)=i(t)一Pi(t)一Pi(t)为
是数据挖掘中的一种分类方法,可用于分析已有的数据并提取 条件 ∈下节点t的杂度消减。为使节点t尽可能的钝 ,需选择分
关联规则,对识别指标中的属性进行量化计算。它为计算机等 支条件 ,使得该节点杂度消减尽可能大。用 ∈(t)表示所考虑的
级考试的通过情况提供了一个科学、准确的分析方法 r。
分支条件 ∈的全体 ,则选择分支条件应为∈arg △1【∈,t)。
假设过程测量数据x可以分成Y个不同的类。分类回归
树模型使用二叉树分类法将预测空间x递归划分为若干子集 , 使用贪心算法 ,将根节点分支得到的左右节点作为根节点,递
Y在这些子集上的分布是连续
文档评论(0)