决策树算法在学生成绩探析中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法在学生成绩探析中应用

决策树算法在学生成绩分析中的应用   摘 要在信息化建设高速发展的高校,越来越多的工作依赖于信息化。数据挖掘能够将隐藏在大量信息背后的有用信息提取出来,所以它在高校信息化建设中使用越来越广泛。高校中大量的学生成绩只用于简单的数据操作,不利于教师准确分析学生学习情况,管理者准确掌握教学质量,学生准确完善学习方法 。通过数据挖掘中决策树C4.5算法对学生成绩建立决策树模型可以改变这些问题 【关键词】数据挖掘 决策树 C4.5算法 学生成绩分析 由于高校的连年扩招和高校信息化建设的迅速发展,各高校获取大量的学生成绩数据。但这些数据信息仅限于备份存储、查询阶段,没有有效发挥大数据应有的作用。大量的学生成绩数据缺乏对大量数据的有效整合,难以对这些数据所隐含的有价值的信息进行充分的挖掘分析,严重影响了对数据的使用效力。本文对学生成绩进行数据挖掘,提出了采用决策树方法对学生成绩及其他信息进行分析处理进而获取隐含的有价值的、能指导教学的信息研究方案,其目的是通过数据挖掘技术的应用,帮助教师获取更多能有助于教学、有价值的信息,为老师的教学工作提供一定的决策依据,进而提高教学质量 1 决策树C4.5算法 1.1 决策树技术简介 决策树(决策树)是一种基于概率的图形化方法,其净现值的期望值大于或等于零;因为这种决策分枝上画的图形像一棵树,所以叫决策树。决策树算法通过对训练实例集进行训练,生成决策树,根据属性的值对决策树进行分类。利用决策树对实例进行分类,首先从树根开节点开始沿着树枝到树叶节点,然后根据延伸的线路进行分类规则 1.2 C4.5算法简介 根据ID3算法实际存在的问题,Quinlan提出了C4.5算法,C4.5实际上是ID3算法的改进算法 信息增益率定义为: 在ID3算法上进行了改进,将ID3算方法使用信息增益选择属性的方法改为使用信息增益率进行属性选择,改变了因为属性取值多而被选择的问题,而且在决策树模型测试为无效模型时可以及时对树进行剪枝以达到有效模型结果,并且对数据信息的不完整性和不一致性进行数据清理,还能够对连续属性进行离散化处理。C4.5算法的缺点:计算效率低,不适合处理训练集大的数据 2 建立学生成绩预测分析规则 2.1 确定分析对象及目标 本文以作者所在信息技术系2013级计算机应用技术专业的学生共计人数214人。目标为:分析出哪些因素影响了学生的学习成绩。并分析出学生成绩优良和成绩不及格情况与对网页设计是否感兴趣、基础程度、上机时间量等这些因素中的哪些因素有关系 2.2 建立预测分析模型及规则 2.2.1 数据来源 本文使用的数据源自数据仓库,而数据仓库中的数据是通过学生基本信息、学生考试成绩信息及学生调查信息通过数据预处理后生成。为了便于建立决策树模型,选择与成绩相关性较大的性别、基础程度、上机时间量三个属性作为建立成绩分类决策树模型的依据。学生成绩分析基本数据示例如表1所示 本文收集2013级计应专业214条学生成绩信息进行决策树模型建立。其中取出1/3记录作为测试数据,2/3数据作为训练集。表中基础程度分为:一般、好、很好;上机时间量为每周上机小时数,分为:0、=3;成绩分为:=60为Y(合格) 2.2.2 建立决策树模型 本文通过表1中的数据使用C4.5算法建立决策树模型,其步骤如下: (1)对表1中的每个测试属性分别计算该属性的信息增益率 Gainration(基础程度) Gainration(性别) Gainration(上机时间量) (2)选取信息增益率最大的属性作为根节点,并按其值划分数据集合,如果该属性只有一个值则停止划分。从上述计算结果可知,信息增益率最大的“基础程度”属性作为根节点,“基础程度”属性内的三个属性值“很好”、“好”和“一般”作为根节点下的三个分支节点划分 (3)对划分的每个子数据集递归执行(1)-(2) 根据以上步骤,最终建立决策树模型如图1所示 2.2.3 生成分类规则 决策树模型建立完成后根据模型提取分类规则,分类规则的做法是:根据决策树模型从树根节点开始到树叶节点的每条路径建立一个规则,这条路径上每个属性-值的合项作为规则的前部分(IF部分),树叶节点中的类预测作为后部分(THEN部分) 学生成绩是否优良的规则:(根据图1提取) IF 基础程度=“很好” and 上机时间量=“0” and 性别为男 THEN 成绩Y IF 基础程度=“很好” and 上机时间量=“0” and 性别为女 THEN 成绩N IF 基础程度=“很好” and 上机时间量=“=3” THEN 成绩N IF 基础程度=“好” and 上机时间量=“0

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档