数据挖掘在高校学生学业预警中的应用.docVIP

数据挖掘在高校学生学业预警中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在高校学生学业预警中的应用   摘 要 使用ID3算法对高校学生的学籍信息数据和学生日常表现数据进行数据挖掘,分析学生的学籍信息中的属性、学生日常表现对于学生预警的影响,并以数据挖掘结果建立学生学业预警的决策树,为教学管理、学生管理提供数据支持。   【关键词】决策树 学业预警 数据挖掘 ID3   “学业预警”作为一种预防学生学业成绩下滑的管理制度源自于江西理工大学2006年在校内实施的“学业预警”制度。当今许多高校在校内实施“学业预警”制,并建有符合各自高校的学业预警标准。但在实际实施过程中由于都是在学年结束后人工统计学生的学分获得情况或通过计算机汇总统计学生的学分情况,所以一般情况下,学生都是在学业问题比较严重的时候才被发现,才被预警。   造成学生“学业预警”滞后的主要原因是高校没有有效利用学校在教学与管理过程中积累的大量原始数据。这些沉睡的数据背后可能隐藏着不为我们所知的但又对我们的各种管理工作十分有用的规律或知识。数据挖掘技术可以通过科学的分析、挖掘从数据中发现隐藏的规律或模式。将数据挖掘技术与学生的学籍信息和学生日常表现数据结合,寻找“学业预警”学生的发展变化规律,尽可能体现发现学生可能被预警的苗头,降低学生预警率,提高高校的教育教学水平和学生管理水平。   1 决策树技术概述   决策树技术是数据挖掘的一个重要的研究分支,是采用树结构算法将数据划分成离散类的方法,其主要作用和目的是揭示大量数据中的类别信息。   Quinlan提出的基于信息熵的ID3(Induction Decision-tree 3)算法是决策树技术中的经典算法。ID3算法以信息论为理论基础,在执行过程中要计算属性的信息熵与信息增益,然后在每次分类判断是以信息增益为标准,通过选择信息增益高的属性进行分类。   2 决策树技术在学生学业预警中应用   学生的学业成绩变化受到各个方面因素的影响,学生的主观努力程度是决定性因素,但也会受到诸如入学成绩、家庭经济状况等客观因素的影响,同时学生的学业成绩变动必然会在其日常学习生活中有所体现。所以,将ID3算法应用于学生的学籍基本信息和学生日常表现的历史数据中,可以构建一个预测学生是否被预警的决策树。   2.1 数据处理   从学校教务系统导出学生的学籍基本信息,从学生管理系统中导出学生的日常表现数据信息,根据数据挖掘目的和需要,保留家庭经济状况、高考成绩、单亲或孤儿、作业情况、出勤情况、是否被预警共计6列属性,通过绘制直方图分析,将高考成绩、作业情况、出勤情况属性数据离散化,整理出包含160名被预警学生在内的共计500条样本数据如表1所示。   2.2 决策树构建   根据样本数据,以“预警与否”为目标类属性构建决策树。   2.2.1 计算样本数据“预警与否”分类的信息熵   2.2.2 计算各属性信息熵与信息增益   由样本数据可知决策树存在5种分裂可能,分别计算“家庭经济状况”、“高考成绩”、“单亲或孤儿”、“作业情况”、“出勤情况”的信息熵与信息增益。   根据信息增益计算的结果可知“作业情况”是最大的增益属性,应按“作业情况”的属性进行分类并创建3个分支。   2.2.3 重复以上计算过程即可构建一个决策树   2.2.4 决策树剪枝   为防止经上述运算构建的决策树的训练过度,对决策树进行剪枝,可提高决策树对新数据运用的准确度。常用先剪枝、后剪枝和两者结合三种剪枝方法,本文采用后剪枝法。经过多次分析测试,设学生“预警与否”的比例为35%,剪枝后的决策树如图1所示。   2.3 分类规则及分析   根据决策树,可以提取相应分类规则   (1)IF 作业情况=C AND 出勤情况=C AND 高考成绩=C THEN 学生被预警的比率=73.3%。   (2)IF 作业情况=C AND 出勤情况=C AND 高考成绩=B AND 家庭经济状况=B AND 单亲孤儿=T THEN 学生被预警的比率=57.14%。   (3)IF 作业情况=C AND 出勤情况=C AND 高考成绩=B 家庭经济状况=B THEN 学生被预警的比率=36.1%。   分析决策树得出的规则,并结合学生情况有如下结论:   (1)学生的日常表现中作业情况、出勤情况非常重要和关键,是学生学习态度、水平变化的明显标志。   (2)学生的高考成绩不是大学生在校学业成绩的关键因素,但作为学生学习的基础,对于学生的学习有一定的影响。结合学生具体数据,并经了解学生情况可知,高考成绩低的学生不仅仅是学业基础差,往往是因为缺少良好的学习方法与学习习惯,造成学业成绩不良。   (3)学生家庭经济状况、是否是单亲或孤儿也是影响学生学业的一个因素。部分学生由于承受学业与经济

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档