挖掘教育数据来分析学生成绩.docx

下载文档 降价啦

24
0
约 14页
2016-08-23 发布于湖北
举报
版权申诉
保障服务

挖掘教育数据来分析学生成绩.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

挖掘教育数据来分析学生成绩

通过教育数据挖掘来分析学生成绩摘要：高等教育机构的主要目的是向学生提供优质教育。通过特定的课程的学生人数的预测，传统课堂教学模式的异化，在线考试不正当手段应用的检测，学生成绩表中异常值的检测，对学生的能力的预测等方式，来实现高等教育体系中的最高质量水平。这些结论是隐藏的教育数据组之间，通过数据挖掘技术可以提取出来。本文通过一个在高等教育系统的数据挖掘模型，证明了数据挖掘技术在高等教育领域的能力。在这项研究中，分类任务是被用来评估学生的表现，和许多数据分类的方法一样，决策树方法也被用在这里。通过这些,我们可以得到学生在学期末考试成绩。它有助于及时发现辍学的学生和需要特别注意的学生，并且允许教师提供适当的建议/辅导。关键词：教育数据挖掘（EDM）；分类；数据库知识发现（KDD）；ID3算法。一、引言信息技术在各领域的出现使得大量的数据存储在各种格式，如记录，文件，文档，图像，声音，视频，科学数据以及许多新的数据格式。收集自不同的应用程序的数据需要适当的方式，才能够从大量的知识库提取信息，以此更好地进行决策的。数据库知识发现（KDD），通常称为数据挖掘，旨在从大量数据收集有用的信息[ 1 ]。数据挖掘的主要功能是应用各种方法和算法，以发现和提取数据存储模式[ 2 ]。数据挖掘和知识发现的应用已经得到了丰富的关注，由于其决策的意义，它已成为各种组织的重要组成部分。数据挖掘技术已被引入到数据库，统计，机器学习，模式识别，人工智能和计算能力等新的领域。数据挖掘技术越来越多地被使用在教育研究领域。这个新兴的领域，称为教育数据挖掘，着重于改进从来源于教育环境的数据发现知识的方式。[3]教育数据挖掘使用了许多技术，如决策树，神经网络，朴素贝叶斯，K-最近邻，和许多其他算法。通过这些技术，可以发现大量信息中的关联规则，对其分类和聚类。发现的知识可以用于对特定课程的学生人数的预测，传统的课堂教学模式的异化，用不正当的手段检测在线考试，学生的异常值检测结果表，学生等?性能预测。本文的主要目的是利用数据挖掘方法研究学生的课程成绩。数据挖掘提供了许多研究学生成绩的方式。在此研究中，和许多数据分类的方法一样，分类任务是用来评估学生成绩，决策树方法被用了这里。信诸如考勤、课堂测试、研讨会和作业的分数等信息被学生管理系统采集，来预测在学期结束时的成绩。本研究验证了决策树技术用于预测学生成绩的准确性。二。数据挖掘的定义及技术数据挖掘，也俗称为知识发现，是指从大量数据中提取或“挖掘”知识。数据挖掘技术被用来处理大量的数据，以此发现隐藏的模式和有助于决策的关系。虽然数据挖掘和知识发现数据库中经常被视为同义词，但数据挖掘其实是知识发现过程的一部分。在数据提取知识步骤如图1所示诸如分类，聚类分析，回归分析，人工智能，神经网络，关联规则，决策树，遗传算法，最近邻法等不同的算法和技术，被用于从数据库中发现知识。这些技术和在数据挖掘方法需要有更好的理解。A.分类分类是最常用的数据挖掘技术，它采用一组预先分类的例子来开发一个可以分类大大量在录人员的模型。该方法通常采用决策树或神经网络的分类算法。数据分类过程包括学习和分类。在学习中，通过分类算法分析训练数据。在分类中，测试数据用以估计的分类规则的准确性。如果精度是可接受的，规则可以适用于新的数据元组。分类器的训练算法使用这些预分类样本确定适当的识别所需的参数设置。该算法将编码这些参数为模型，这个模型被称为分类器。B.聚类聚类可以说是同类对象类的识别。利用聚类技术，我可以进一步识别的对象空间中的密集和稀疏区域，并且可以发现数据之间的属性和关系的总体分布格局。分类方法通常是区分组或类的对象的有效手段，由于其的稀有使得聚类可以被用作属性子集选择和分类的预处理方法。C．预测回归技术可以用于预测。回归分析可用于模拟一个或多个自变量和因变量之间的关系。数据挖掘中自变量是已知的属性，响应变量是我们想要预测的。不幸的是,许多现实问题并不能简单的预测。因此,更复杂的技术(如:逻辑回归、决策树、神经网络)也许对预测未来值很有必要。相同的模型通常可以用于回归和分类。例如,分类回归(分类和回归树)决策树算法既可用于构建分类树(分类响应变量)还可用于构建回归树(预测连续响应变量)。神经网络也可以创建分类和回归模型。D .关联规则关联和相关通常用来在大型数据集中发现常用项目集。这种类型的发现有助于企业做出某些决定,如产品目录设计、交叉营销和顾客购物行为分析。关联规则算法需要能够和小于1的信心值生成规则。但是对于一个给定的数据集，可能的关联规则数量通常是非常大的，并且在通常价值很低的规则（如果有的话）中占有高比例。E.神经网络神经网络是一组连接的输入/输出的单元组,并且每个连接都和它有个权值。在学习阶段，网络学习通过调整权重,能够预测输入元组的正确的类标签