基于数据挖掘的英语四级成绩分析与预测.docVIP

下载本文档

10
0
约 6页
2016-09-30 发布于北京
举报
版权申诉

基于数据挖掘的英语四级成绩分析与预测.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据挖掘的英语四级成绩分析与预测.doc

基于数据挖掘的英语四级成绩分析与预测　　摘要：阐述了数据挖掘的概念和算法，重点介绍了线性回归算法，基于多元线性回归算法分析了影响大学英语四级的诸多因素。根据数据挖掘思想，收集历史数据并适当加以变换，使用统计分析技术对影响大学英语四级的诸多因素进行分析，得出了大学英语四级成绩与其影响因素之间的线性回归关系，拟合程度较高，可用于四级成绩预测，对学生学习和学校教学管理有很大的指导作用和使用价值。　　关键词：英语四级；数据挖掘；统计分析；线性回归；预测　　中图分类号：TP301.6 文献标识码：A 文章编号：1009-3044（2014）03-0452-03 　　1 概述　　近几年，我国高等教育蓬勃发展，中华人民共和国国家统计局最新数据（2012年）显示，我国现有普通高等学校2442所，高校在校生人数2391.3万，其实现在的实际数字要大于统计局2012年的数据。我国2013年毕业生数量699万，2013年号称“史上最难就业季”，而2014年的727万毕业生应该是遇上了“史上最最难就业季”。面对这样的激烈竞争与“史上最难就业季”，用人单位对于人才的录用也更为苛刻，大学英语四级已经成为了很多用人单位的筛选条件。如何才能顺利通过大学英语四级呢？很多在校大学生不清楚怎样能通过四级，很多教师也不知道如何管理以帮助学生通过四级。学生的英语四级成绩到底和哪些因素有着千丝万缕的联系呢？因此，使用数据挖掘技术探索和研究并解决这些问题已经成为部分高校极为重视的教育课题。这对于提高学生自身素质和竞争力，提升就业质量，促进部分高校的发展有一定的理论意义和实用价值。　　2 数据挖掘　　2.1 数据挖掘概念　　数据挖掘（Data Mining， DM）是一个利用各种分析方法与技术，从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。换句话说，数据挖掘就是从数据中挖掘信息或知识，有人称为知识发现（Knowledge Discovery in Database， KDD）。数据挖掘是一门交叉性学科，融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[1]，现已经广泛应用于金融、零售、保险、医药、通讯、电子工程、航空、等诸多领域[2]。CRISP-DM（CRoss-Industry Standard Process for Data Mining，跨行业数据挖掘过程标准）是当今数据挖掘业界通用的、比较流行的标准之一，该标准把数据挖掘过程归纳为六步：（1）业务理解（Business Understanding）；（2）数据理解（Data Understanding）；（3）数据准备（Data Preparation）；（4）建模（Modeling）；（5）评估（Evaluation）；（6）部署（Deployment）[3]。在建模中要根据不同的业务场景选择不同的建模技术，即选择了不同的数据挖掘算法。　　2.2 数据挖掘算法　　数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。它分析用户提供的数据，并查找特定类型的模式和趋势，算法使用此分析的结果来定义用于创建挖掘模型的最佳参数，这些参数应用于整个数据集，以便提取可行模式和详细统计信息。大多数数据挖掘算法使用一个或者几个目标函数，并且使用若干搜索方法（如启发式算法、最大最小值法、梯度下降方法、网络推演法等），在数据体中或建立了距离关系的数据空间中获得一个点或一个小区域。数据挖掘算法按照挖掘方式可以分为有教师型和无教师型，也称有监督学习和无监督学习。在有监督学习中，先给出一个教师信号，对训练样本集中的每个输入样本能提供类别标记和分类代价，并寻找能降低总体代价的方向。在无监督学习算法中并没有显式的教师，系统对输入样本自动形成聚类[4]。　　从应用角度来讲，数据挖掘算法可以分为以下六类：分类算法、回归算法、聚类分析算法、关联规则、时序和偏差检查算法。该文主要应用回归算法。　　线性回归是回归算法的一种，在线性回归中，数据用直线建模。双变量回归将一个随机变量Y（称为响应变量）视为另一个随机变量X（称为预测变量）的线性函数。即：　　[Y=α+βX] 　　其中，Y的方差为常数，α和β是回归系数，分别表示直线在Y轴的截距和斜率。这些系数可以用最小二乘法求解，可以使实际数据与该直线的估计之间的误差达到最小。给定[s]个样本或形如（x1， y1），（x2， y2），... ，（xn， yn）的数据点，回归系数可以用如下公式计算：　　[β=j=1s（xi-x）（yi-y）j=1s（xi-x）2] 　　[α=y-βx] 　　其中，[x]是x1，x2，... ，x