基于决策树技术高校学生成绩分析.docVIP

下载本文档

139
0
约4.42千字
约 10页
2018-08-29 发布于福建
举报
版权申诉

基于决策树技术高校学生成绩分析.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于决策树技术高校学生成绩分析

基于决策树技术高校学生成绩分析　　摘要决策树算法是数据挖掘中的重要技术之一，具有出色的数据分析能力和直观易懂的结果展示等特点。本文利用SPSS Modeler提供的决策树分类算法对高校学生的成绩进行更深层次的有效分析，发现隐藏在成绩数据中的规律或模式，考察大学计算机基础考试中不同部分对总成绩的影响程度，从而进一步提高高校的计算机基础课程的教学水平。　　关键词数据挖掘决策树成绩分析　　中图分类号：TP311.13 文献标识码：A 　　0引言　　随着我国高等教育信息化建设的快速发展，许多高校都已经建立起了校园精品课程、数字化图书馆、网络实验室等信息化应用，在知识共享上不断完善求新。同时，校园服务、校园信息发布、在线教学等数字化校园平台的建设实现了数据的共享与系统的整合。　　传统的学生成绩分析还停留在简单的查询及简单的数字统计阶段。如查询某个学生的某门课程的成绩，统计某门课程的优、良、中、差各个成绩段的学生人数，统计成绩的均值、方差、置信度等。己有的分析研究仅仅从理论上对可行的评价机制进行讨论，而隐藏在这些数据后的其他有用信息很难能够发掘出来。　　另一方面，信息化应用中获取的大量教学信息使得各种新的属性不断出现，增加了学生的信息存量，大量的学生信息以及学习数据没有发挥其相应的作用。这些信息从一定的角度上反映了学生在新的教学模式下所特有的学习行为，为研究学生的学习行为提供了依据与基础。本文就是在这些大量的数据基础上，结合数据挖掘的决策树分类技术，从学生的学习成绩入手，收集、整理和分析学生的行为信息，总结和发掘在新的学习模式下对教学质量及其学习效果的影响，为教师日常教学和学生学习的改进提供依据。　　1数据挖掘技术综述　　数据挖掘（Data Mining），就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信的信息和知识的过程。是一门广义的交叉学科，它的发展和应用涉及到不同的领域，尤其是数据库、人工智能、数理统计、可视化、并行计算等。　　数据挖掘技术有两大基本功能，即描述功能和预测功能。描述功能是指描述数据库中数据的一般性质。预测功能是指对当前数据进行推断，以便做出预测。　　数据挖掘研究的对象是大量隐藏在数据内部的有价值的信息，如何获取有价值感兴趣的信息是我们所要解决的主要问题。接下来简单介绍数据挖掘中应用较为广泛的常用的一些技术。　　1.1决策树方法　　决策树算法的目的是通过向数据学习，获得输入变量和输出不同取值下的数据分类和预测规律，并用于对新数据对象分类的预测。　　1.2关联规则　　关联规则用来揭示数据与数据之间未知的相互依赖关系。由一个条件和一个结果组成的，形如 IF...THEN 的简单形式就叫做规则，关联规则挖掘就是扫描整个数据集，从中找出具有给定的最小支持度和最小置信度的关联规则。其中最具代表性的是R.Agrawal 提出的 Apriori 算法。　　1.3神经网络　　神经网络是以人脑为基础的抽象模型，它模拟真实人脑神经网络的结构和功能，将众多结构和功能极其简单的神经元通过各种方式联接成一个复杂的网络结构，以实现复杂的智能行为，构成一个类似于人脑结构的非线性预测模型，通过学习进行模式识别。神经网络具有两大特点――自学能力和自适应能力。　　1.4聚类分析　　聚类是将数据集分成若干不同的类，使得在同一类的数据对象尽可能相似，而不同类中的数据尽可能相异。聚类与分类的根本区别在于：分类需要事先知道所依据的对象特征，而聚类是在不知道对象特征的基础上要找到这个特征。　　以上介绍了数据挖掘的基本知识，包括数据挖掘的概念、数据挖掘的功能、数据挖掘的过程及步骤，以及数据挖掘中常用的各种技术。而且现在的数据挖掘软件，不管是开源还是商用都已经很成熟了，也提供易用的可视化界面，集成了数据处理、建模、评估等一整套功能。本文尝试使用Spss modeler[7，8]数据挖掘工具，采用决策树分类技术，对所采集的学生考试成绩数据进行分析挖掘，形成分类规则，从而更好的分析和预测成绩数据。　　2高校学生成绩的决策树模型　　2.1决策树技术　　决策树技术是通过学习，获得输入变量和输出变量不同取值下的数据分类和预测规律，并用于对测试集的分类预测。它主要由两个阶段组成。　　第一阶段，建树阶段。选取训练数据集进行学习，导出决策树。建树的流程图如图1所示：　　第二阶段，剪枝阶段。用测试数据集检验决策树，如果所建立的决策树不能正确的回答所研究的问题，我们要对决策树进行剪枝以解决过分适应数据的问题，直到建立一棵正确的决策树。剪枝的目的是降低由于训练集的噪声而产生的起伏。　　决策树技术之所以是数据