数据挖掘在大学英语成绩预测中应用研究.docVIP

下载本文档

1
0
约3.29千字
约 7页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘在大学英语成绩预测中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘在大学英语成绩预测中应用研究

数据挖掘在大学英语成绩预测中应用研究　　摘要：“数据驱动学校，分析变革教育”的大数据时代已经来临，数据挖掘这一技术在教育行业随之诞生。随着社会对英语的应用日益增加，英语学习日益重要，大数据及数据挖掘技术在英语教学与学习中的应用与研究将成为新的发展趋势。本研究是基于大学英语技能训练系统产生的教学数据进行的挖掘分析，选取和学生成绩相关的数据作为特征，以学生考试成绩为目标，运用GBDT模型进行模型训练，实现了学生成绩的预测，经过评估、分析发现用数据挖掘技术可以比较准确的预估学生成绩，验证了数据挖掘技术在大学英语学习中的应用，以及GBDT模型对结果预测的影响，对学生学习和教师教学有很大的指导作用和使用价值。　　关键词：数据挖掘；大学英语；预测　　中图分类号：TP391.1 文献标识码：A DOI：10.3969/j.issn.1003-6970.2016.03.017 　　0引言　　近年来，教育改革一直是社会关注的重点问题之一。随着社会的不断进步，高端科学技术、产品在社会的各个领域中得到了广泛应用，使得人们生活质量在不断提高。同样，教育行业的教学质量也随之在不断地提升，教学方法、手段不断、教学环境等处于更新换代过程中。随着互联网的快速发展，大数据随之而生，使数据挖掘技术在教育领域中不断地得到应用，为学校、教师、学生都提供了便利的教学条件，而对于数据挖掘技术在教育领域的应用也受到广泛的关注。在英语学习过程中，影响学生学习英语的因素很多，需要对各因素进行综合分析。在大数据时代，如何从大量数据中找出有价值的信息并利用这些信息预测未知的或未来值的过程变得愈加重要，数据挖掘技术就是通过构建相关模型，探索信息之间的相关关系。　　1数据挖掘技术理论　　1.1数据挖掘概念　　数据挖掘（data mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含其中的、事先未知的、但又具有潜在价值的信息和知识过程。数据挖掘是一门由多个学科交叉与融合而形成的新兴学科，集成了众多学科中成熟的工具和技术，包括数据库技术、统计学、机器学习、模式识别、人工智能和神经网络等。　　数据挖掘的技术有很多种，按照不同的分类有不同的分类法。一般分为有监督算法和无监督算法，其中有监督算法主要有逻辑回归、决策树等，无监督学习主要包括聚类、最邻近距离、支持向量机等。从应用角度上可以分为分类算法、回归算法、聚类分析算法、关联规则、时序和偏差检查算法。　　1.2 GBDT算法简介　　决策树是一个具有树状结构的模型，可以看成if-then的规则结合，从根节点开始在每个节点上按照给定标准选择测试属性，然后按照相应属性的所有可能取值向下建立分枝、划分训练样本，直到一个节点上的所有样本都被划分到同一个类，或者某一节点中的样本数量低于给定值时为止，这一阶段最关键的操作是在树的节点上选择最佳划分方式。最佳划分结点方法的选择标准有信息增益、基尼指数等。　　GBDT的全称是Gradient Boosting Deeision Tree，其中Gradient Boosting和Deeision Tree是两个独立的概念。Boosting是用一些弱分类器的组合来构造一个强分类器，GBDT即通过迭代多棵树来共同决策。其核心就在于每一棵树都是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。因此，GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终结果。GBDT是一个应用很广泛的算法。本文主要应用GBDT算法做回归。　　2英语考试成绩预测的实现　　本研究运用GBDT算法对大学英语技能训练系统中学生成绩进行预测，历经了数据提取、数据预处理、特征选择、训练模型、预测未知数据等关键步骤，如图1。其中，数据提取、预处理及特征选择是处理训练数据集的过程，模型训练阶段及参数调整是个不断优化、反复执行的过程，直到得到预期的结果。　　2.1数据提取和预处理　　本研究主要从大学英语技能训练系统中提取学生信息，分别选取了2013至2014年春、秋季四个学年中一、二年级学生数据，最终的数据文件类型选择以纯文本形式存储表格数据的CSV格式。　　数据预处理是在数据挖掘前的数据准备工作，数据的好坏是预测结果好坏的前提条件，其目的是去除与目标不相关的数据属性和内容，为数据挖掘提供干净、准确、更有针对性的数据，减少挖掘算法的数据处理量，提高挖掘效率和最终结果的准确度。数据预处理的方法有很多，主要有数据选取、数据清理、数据属性取值一致化、数据集成、数据转换和数据简化等。　　本次实验按照上面所述的数据预处理规则进行相应处理，最终得到8000条数据作为训练样本。　　2.2特征选择　　特征选择是选择