基于Weka的CET-4成绩的挖掘与分析.docx

基于Weka的CET-4成绩的挖掘与分析.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于Weka的CET

4成绩的挖掘与分析

?

?

范殉琦钟宝荣

摘要;现如今大学生人数逐年在增多,就业压力也在逐年增大,获得含金量较大的证书无疑可以增大大学生就业的优势,CET-4证书就是其中的一种。从本校大学一年级学生教育学习情况调查问卷中,运用决策树C4。5算法进行数据挖掘,可以发现学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。运用WEKA数据挖掘软件,可以很清晰直观的进行数据挖掘并分析出影响英语四级考试的因素,对高校英语教学有一定的指导意义。

关键词:WEKA软件;CET-4成绩;数据挖掘;决策树

:TP311:A:1009-3044(2017)07-0248-02

1引言

大学英语四级考试,即CET-4,CollegeEnglishTestBand4的缩写,是由国家教育部高等教育司主持的全国性教学考试。考试有一定的难度并且监考力度大,考试成绩具有很高的可信度,因此引起了高校中学生、老师和领导的高度重视。

学校每年都会进行在校大学生学习情况的调查,而这些数据仅仅是用在表面的数据查询,数据背后隐藏的有用信息并未被有效的挖掘出来。针对这个问题,利用WEKA数据挖掘软件中决策树J48(对C4.5进行了改进)算法,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系与CET-4成绩之间的潜在关系,分析出那些因素对CET-4成绩影响最大,从而总结出学习的规律,提高高校学生的CET-4成绩。

2WEKA软件

2.1WEKA数据挖掘软件介绍

Weka的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

2.2WEKA数据集格式AR]EF

ARFF(Attribute-RelationFileFormat)格式是一种ASCII文本文件,记录了具有共同属性的实例集。ARFF格式是数据挖掘软件WEKA所使用的文件格式。ARFF文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属性用@attribute什么,数据域用@data开头。当数据是数值型,在属性名的后面加numeric,如果是离散值(枚举值),就用一个大括号将值域列出来。@data下一行后为数据记录,数据为矩阵形式,即每一个的数据元素个数相等,若有缺失值,就用问号?表示。

3C4.5数据挖掘算法

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法ID3算法。分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。

ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。

设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:

其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。

现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为;

而信息增益即为两者的差值:

C4.5算法继承了TD3算法的优点,并对ID3算法进行了改进:

C4.5算法首先定义了“分裂信息”,其定义可以表示成:

其中各符号意义与ID3算法相同,然后,增益率被定义为;

4CE4-4成绩挖掘与分析

4.1确定挖掘对象阶段

此次实验的数据来源于我校在校学生学习情况、学生入学信息等多个数据源,利用数据库技术将多个数据源中的可能对CET-4成绩造成影响的字段进行整合,合并成一个用于分析学生CET-4成绩的数据表。运用WEKA软件,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。

4.2数据收集与数据预处理

本次数据中的原始样本数据共有1650个,经过初步的数据清理、排除、整合等操作后,参与数据挖掘的数据共有1528个,样本的有效率达到了92.6%。得到了一个包含stuNum,stuName,stuSex,stuScore,stuAttitude,stuWork,stuRelation,CET4Score八个字段的影响CET4成绩的数据表,数据如表1所示。

4.3数据转换

首先需要对stuScore、stuWork、CET4Score字段的数据通过离散化的方法,将原本NUMERIC类型转换为NOMINAL类型。将大学生高考成绩离散化为“A”(≥120分),“B”(≥105且120分),“C”(≥90且105分),“D”(90分);将

文档评论(0)

151****6160 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档