数据挖掘在学生专业成绩预测上应用.docVIP

下载本文档

124
0
约4.46千字
约 10页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘在学生专业成绩预测上应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘在学生专业成绩预测上应用

数据挖掘在学生专业成绩预测上应用　　摘要：学生特征的提取以及学习效果预测一直是教育数据挖掘领域的热门课题。本文将结合国内高校教育现状和现有的教育数据挖掘成果，以weka作为实验平台，应用C4.5算法对本科生的专业培养数据做建模分析以及成绩预测，通过采集到的实际数据做实验验证，找到潜在于成绩信息之中的学生行为规律，为提前干预学生学习行为，优化教育决策做出有意义的指引。　　关键词：计算机应用；数据挖掘；weka；学生成绩预测　　中图分类号：TP391 　　文献标识码：A 　　DOI： 10.3969/j.issn.1003-6970.2016.01.007 　　0 引言　　教育数据挖掘领域从2009年兴起至今已经得到了飞速的发展。EDM社区对教育数据挖掘做了如下定义：教育数据挖掘是一个新兴学科，致力于探索特定（来自于教育环境）数据的先进方法，并使用这些方法来更好的了解学生，并将其应用到他们的学习环境中。在高校的校园信息化建设已经日臻成熟的大趋势下，高校教务信息管理系统里积存了大量教务数据，教育数据挖掘领域根植的环境已经具备，本文将以此为背景，利用课程成绩对学生的专业学习行为进行建模，并对其未来的学习成果做出预测。研究过程中将基于weka实验平台，应用经典的C4.5决策树算法作为模型建立方法展开研究和实验。　　本文的组织结构如下。第一章阐述研究主题内容的定义和算法原理简述；第二章从数据预处理，算法应用和模型评估三个方面来分析机器学习方案的创建过程；第三章以实际数据为例执行建模实验，分析和讨论实验结果，得出实验结论。第四章对全文的研究作总结，并对未来的研究做出展望。　　1 研究背景与算法简述　　1.1 研究背景讨论　　关于学生表现的预测，有很多专家和学者做出了尝试和贡献。M.Vranic，D.Pintar and Z.Skocir通过应用聚类、关联分析和探索性数据分析等多重手段，分析了如何用本科生的生源情况，高考成绩，以及大一的重点课程“电子工程基础”的课堂表现情况预测出学生在这门课程的最终表现；Judith Zimmermann等学者从苏黎世联邦理工大学的一个专门制定的研究生推免计划中获得学生本科生和研究生成绩信息，以GGPA代表学生研究生的评定等级，应用多种预测和统计手段进行基于模型的成绩预测研究，分析如何用本科成绩单上得到的数据来预测GGPA，来推断其在研究生期间的表现。　　然而对于这些跨越了学历阶段之间的预测分析并不适用于国内的教育体制，两个问题：1.首先以GGPA评定整个学历的学习行为未免过于粗糙，我们难以察觉出学生的具体特征；2.对于特定课程的预测需要用与之相关的解释变量做模型训练才更有意义，然而如果学习阶段相差过大，学习内容和环境都有很大差别，这样极大弱化了自变量和目的变量之间的相关性，使得预测结果的说服力大大降低。　　为了克服这两点矛盾因素，我们将预测素材和预测目标都锁定在本科教育阶段。图1列出了目前主流的计算机科学与技术专业的培养课程体系的主要内容。方案的主要思想是将重要的基础课程放在大一大二两个学年，将较为高阶和关键的专业课放在大三学年，大四学年供学生根据自己意愿自由选择更偏向于社会应用课程以及毕业设计。以此为指导，我们选用课程体系中的学科基础课，专业基础课作为解释变量，来预测与之相关的高阶专业课的学习成绩，以达到加深对于学生学习行为的理解，和提前对学生学习进行干预，帮助其更好的完成专业培养的目的。　　1.2 C4.5决策树算法原理简述　　决策树是一种预测模型，它以决策节点、分支和叶节点的构造形式表示，将实例通过属性值逐步判别为某个类别标签上。我们需要用训练数据集来做决策树模型训练，然后将得到的树形结构进行保存并应用到测试数据和实际数据中。　　本文将使用最为先进的C4.5决策树算法，它基于从上到下的递归分治策略，选择信息熵增益最大的属性作为树的根节点，为每一个可能的属性值创建分支，这样将实例分成多个子集。算法将递归地执行这一步骤直到所有子节点的所有实例都属于同一类别，也就是叶节点的产生。不过要将决策树算法应用到成绩预测问题的最关键部分在于我们要调整我们的数据集。决策树算法需要应用在拥有名称性类别属性的数据集上，我们需要将我们的目标课程成绩离散化后才能使用算法，具体的离散方法会在第2.1节讲到。在weka中C4.5的实现是J48算法，我们可以通过调节api提供的多种参数来改变决策树的生成和修剪过程，使得预测模型规模更加符合我们的预期，而且也往往伴随着预测效果的提升。　　2 决策树预测方案的设计　　2.1 数据预处理　　为了构建预测模型，我们需要将多门课程的成绩数据合并到同一数据集下，并指定数据的目标类别属性（预测的专业课程）。为了将数据构建成分类