数据挖掘在学生成绩数据中应用研究.docVIP

下载本文档

8
0
约3.7千字
约 9页
2018-11-03 发布于福建
举报
版权申诉

数据挖掘在学生成绩数据中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘在学生成绩数据中应用研究

数据挖掘在学生成绩数据中应用研究　　摘要：针对课程设置与课程成绩之间的关系，通过比较分析可以发现学生成绩背后所隐藏的有价值信息。通过对学生成绩数据的挖掘，可以发现隐藏其中的关联规则，得出有实际价值的规则及结论，从而为教学管理人员优化课程设置提供决策支持。　　关键词：数据挖掘；关联规则；学生成绩； Apriori算法　　中图分类号：TP392文献标识码：A文章编号文章编号：1672-7800（2013）012-0133-03 　　作者简介：岳超（1986-），男，西南科技大学计算机科学与技术学院硕士研究生，研究方向为教育技术与知识工程；范太华（1962-），男，西南科技大学计算机科学与技术学院副教授、硕士生导师，研究方向为数据挖掘和系统结构；姬亚利（1988-），女，西南科技大学计算机科学与技术学院硕士研究生，研究方向为网络教育教学设计；衣峰（1987-），男，西南科技大学计算机科学与技术学院硕士研究生，研究方向为网络教育与移动学习。　　0引言　　随着招生规模的不断扩大，教务管理系统中的数据急剧增加，普遍存在的问题是学生成绩数据量过于庞大，但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段，如何利用这些数据理性地分析教学中的成效得失以及找到有关影响学生学习成绩的因素是广大教师共同关心的问题[1]。本文着重讨论了数据挖掘技术在学生成绩这一海量数据中的应用，发现成绩数据中隐藏的课程相关规则或模式，力图通过关联与分类，得出一些有用的知识，对教学质量的提高起到积极的促进作用。　　1数据挖掘及关联规则　　数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是一个循环往复的知识发现过程，通过对挖掘结果的描述、分析与评价，不断优化数据挖掘模型和挖掘算法，最终获得最优化数据挖掘解决方案[2]。　　1.1数据挖掘流程　　（1）确定业务对象。清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的，但要探索的问题应是有预见的，为了数据挖掘而数据挖掘则带有盲目性，是不会成功的。　　（2）数据准备。①数据的选择：搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据；②数据的预处理：研究数据的质量，为进一步的分析作准备，并确定将要进行挖掘操作的类型；③数据转换：将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。　　（3）数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外，其余一切工作都能自动地完成。　　（4）分析和同化。①结果分析：解释并评估结果，其使用的分析方法一般应视数据挖掘操作而定，通常会用到可视化技术；②知识的同化：将分析所得到的知识集成到业务信息系统的组织结构中去。数据挖掘的过程如图 1 所示。　　1.2关联规则简述　　关联规则挖掘就是在海量的数据中发现数据项之间的关系，关联规则的支持度（support）和置信度（confidence）是规则兴趣度的两种度量。他们分别反映了所发现规则的有用性和确定性。一般地，用户可以定义两个阈值，分别为最小支持度阈值（minsup）和最小置信度阈值（minconf）。当挖掘出的关联规则支持度和置信度都满足这两个阈值时，就认为这个规则是有效的，否则，就是无效的。这些阈值一般可由领域专家设定，也可以进行其它分析，揭示关联项之间的联系。　　2基于数据挖掘的高校学生成绩分析　　对学生成绩的正确分析，是保证教学工作顺利进行的关键，揭示一些“教”与“学”的现象和规则，能更好地指导教师的“教”与学生的“学”，为教育教学的计划和决策提供依据，提高教学的效果和成果。　　2.1数据采集　　高质量的数据，是保证数据挖掘成功的前提保证。本研究所需数据取自计算机专业学生的期末考试成绩数据库文件，确定某门课程和其它课程之间的关联性。为减少不必要的影响因素，影响关联规则的产生，删除了英语类、思政类、体育类的课程，将数学类和计算机课程进行分析，最终随机抽取 385 名学生的《CC++ 语言程序设计》、《线性代数》、《离散数学》、《计算机系统原理》、《计算机网络》、《计算机组成原理》、《软件工程》、《数据库原理》、《数据结构》等课程的期末考试成绩。　　2.2数据预处理　　数据预处理是数据挖掘的关键阶段，原始数据往往存在不完整的、含噪声的和不一致的数据，不能直接运用于数据的挖掘，需要对其进行数据预处理，包括数据清理、数据集成、数据变换等内容。　　（1）数据清理。通