- 4
- 0
- 约9.02千字
- 约 6页
- 2017-11-27 发布于福建
- 举报
2010年 7月 浙 江 教 育 学 院 学 报 July2010
第 4期 NO.4
JOURNALOFZHEJIANGEDUCATIONINSTITUTE
基于决策树的英语专业学业
影响因素的关联规则挖掘
滕广青,张 良军,张 凡
(浙江外国语学院,浙江 杭州310012)
摘 要 :利用决策树数据挖掘技术对英语 专业学生相 关数据信 息开展 了实验研
究,提 出了基于实验数据集的决策树挖掘模型,并据此提取 了英语专业学业影响因素
的关联规 则.
关键词 :数据挖掘 ;决策树 ;英语专业;关联规则
中图分类号 :TP331 文献标识码 :A 文章编号 :1671—6574(2010)04—0097—06
1 引 言
“数据挖掘 (DataMining,DM)”这一术语 目前在学术界还没有一个公认的、权威的定义 ,
但我们一般可以简单的认为数据挖掘是从大量的数据 中,提取隐含在其中的、人们事先不知道
的、但又是潜在而有用的信息和知识的过程….数据挖掘所探寻的是一种已有的、只是隐藏在
数据中、暂时没有被发现的知识.数据挖掘技术是近年来发展最快、应用最为广泛的前沿性技
术之一 ,其基础理论 日臻成熟 ,应用范围越来越广泛.研究重点逐渐从发现方法等理论研究转
向系统应用研究 ,注重多种发现策略和技术的集成 ,以及 多种学科之 间的相互渗透.作为处理
海量数据 的有效方法 ,数据挖掘被越来越多地应用到教育领域的研究中来.国外最早将数据挖
掘技术应用于教育管理中的学生注册 、教学设施管理 、听课管理等方面 .近年来 ,国内部分
学者也开始尝试利用数据挖掘技术探索教育领域 中的一些问题 ,如优化多媒体教学策略 ]、
提取网络学习关联规则 ¨』、建立教育决策支持系统 ]、编程语言的选择 ]、课程与成绩 的依存
性 、教学评价 等等 ,并取得了一些进展.本研究采用决策树数据挖掘技术 ,探寻英语专业
学业影响因素的关联规则 ,从技术应用的层面对利用信息技术研究英语专业教育领域相关问
题进行 了尝试.
2 针对英语专业学生数据信息的决策树数据挖掘
2.1 数据源管理
对于大学本科英语专业的学业影响因素而言 ,人们往往会有一些习惯性 的认识 ,例如:
(1)高考成绩好的学生,人们往往认为其大学四年平均学分绩点会高 ;(2)部分地区的方言也
许会影响外语学习;(3)由外语类学校升人大学的学生 ,似乎在大学 的相应外语专业会有较大
收稿 日期 :2010—06—16
作者简介:滕广青 (1970一),男,吉林长春人 ,浙江外国语学院国际工商管理学院副教授 ,管理学硕士;张良军(1970一),男 ,黑
龙江齐齐哈尔人 ,浙江外国语学院外国语学院副教授 ,文学硕士;张凡(1963一),女,江西南昌人 ,浙江外国语学院图书馆助理馆员.
98 浙江教育学院学报 2010点
的优势 ;(4)一般而言,英语等级考试成绩与学生的学业成绩没有必然联系等.
由此,本研究选择国内某 211高校英语专业 2002级 108名本科毕业生 (50%的数据用于
挖掘试验,50%的数据用于验证)相关数据作为数据源,同时选择表 1中所列示的字段作为数
据挖掘字段 ,以每个毕业生的平均学分绩点作为学生的学业水平指标进行挖掘.
表 1 用于数据挖掘的字段及说明
注 :Grade字段取值 1、2、3、4分别对应优 秀 、良好 、及格 、不及格
2.2 数据预处理
由于学生的相关教育信息来 自于不同操作平 台的不同数据库 ,操作平台与数据库管理系
统的异构 ,数据结构与数据类型、字段长度的异构 ,以及数据污染 、数据缺失等问题都给数据挖
掘带来很大障碍.因此 ,在数据挖掘之前必须对数据进行预处理.
在进行数据预处理时一般要考虑以下几个方面的问题 :(1)数据清洗 现实
原创力文档

文档评论(0)