兴趣度在基于关联分析选课指导系统中研究与应用.docVIP

  • 2
  • 0
  • 约3.4千字
  • 约 8页
  • 2018-08-21 发布于福建
  • 举报

兴趣度在基于关联分析选课指导系统中研究与应用.doc

兴趣度在基于关联分析选课指导系统中研究与应用

兴趣度在基于关联分析选课指导系统中研究与应用   摘 要:简要地介绍了数据挖掘技术,通过对关联分析的经典算法Apriori在学生选课指导系统中的应用分析,发现了Apriori不适合学生选课指导系统的缺陷。提出了增加兴趣度阈值以减少产生的无用规则,提高挖掘精度,克服原系统缺陷的新算法,为学生选课辅助决策提供了良好的理论依据和实现方法。   关键词:数据挖掘;关联规则;兴趣度;选课指导??   中图法分类号:TP391文献标识码:A   文章编号:1001―3695(2007)02―0246―03   随着高校教育体制的改革,学分制的推广,学生选课的自主性越来越大。但是学生在选课的过程中,由于对所选课程需要的基础知识认识不足,导致选课具有一定的盲目性。对此,通过对高校教学管理系统中学生历史成绩数据库进行基于关联规则的分析,得出课程之间的关联程度,进而获得所选课程的相关先修课程,使学生在选课过程中得到一些有意义的指导信息,在一定程度上避免其选课的盲目性。传统的关联规则主要是考虑称作可信度和支持度的阈值,但在学生选课指导系统的实际应用中发现仅考虑可信度和支持度时,存在挖掘出来规则数量过多;有些规则具有误导性和欺骗性;同时无法明确表示一门课程是另外一门课程的先修课程还是后继课程;只能得出两门课程之间有相关性;不利于学生根据情况判断自己是否已经学习过某门课程的先修课程等问题。本文引入另外一个阈值即兴趣度,来实现过滤这些无用甚至有误导性的规则,同时使挖掘出的规则能够体现出课程的先后关系。??      1 学生选课指导系统??      学生选课指导系统就是指对高校教学管理系统中的学生成绩数据库进行关联规则挖掘,从中挖掘出满足最小支持度和最小可信度的规则。其系统框架如图1所示。??   图1中成绩数据库为学校的学生成绩数据库。系统首先对原始的成绩数据库进行数据的选择、净化、转换等预处理,建立起基于园区网络教务平台的数据仓库[1],然后在此数据仓库的基础上进行数据挖掘,通过对结果的评估,即可得出有效规则,用于辅助决策。当决策者对于评估结果不满意时,可以回溯到数据挖掘阶段,重新进行挖掘。??   在学生选课指导系统[2,3]中用到了数据挖掘技术中的关联规则分析。以下对关联规则作简单的介绍。??      2 数据挖掘及关联规则??      2.1 数据挖掘??   数据挖掘[4]是20世纪80年代后期兴起的学科,指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。??   2.2 关联规则??   关联规则[5]是数据挖据的一个重要分支,发现形如“如果〈条件〉,那么〈结论〉”的规则的方法。在关联规则中,D是所有事务的集合,相当于数据库中的记录集合,假设X,Y是数据项集,则关联规则表示为(T中包含X)??(T 中包含Y)。其意义在于一次交易中(数据库中的一条记录)存在X项目,则该交易中也存在Y项目。通常简写为X??Y, X称为关联规则的前件, Y称为关联规则的后件,?莩莆?关联操作。   关联规则的挖掘实际上就是首先找出事务数据集D中所有大于等于用户指定最小支持度的频集,然后在频集上根据用户指定的最小可信度确定规则的取舍,最后得到关联规则。??   学生选课指导系统就是用经典的关联规则算法――Apriori[6]算法,对基于学生成绩数据库的数据仓库进行挖掘来得到课程之间的关联规则。      3 引入兴趣度阈值的关联规则挖掘方法??      3.1 兴趣度提出的背景??   在实际的学生选课指导系统应用中,发现仅考虑可信度c和支持度s是不够的,并且还可能会引起误导。例如:在学生成绩库中有20%的学生《离散数学》和《数据结构》成绩均为优,而《离散数学》成绩为优的学生中40%的人《数据结构》成绩为优,由这两个足够大的支持度和可信度我们推出“加强《离散数学》的教学有助于《数据结构》成绩的提高”这条看似有用的规则。但实际情况是原始记录显示选修《数据结构》的学生50%成绩为优,换句话说,其中有30%的学生《离散数学》成绩非优。任意一个我们不知道是否选修《离散数学》的学生的《数据结构》成绩优秀的概率(50%)高于已知选修《离散数学》成绩为优秀的学生的概率(40%)。很显然,上面推出的这条规则是误导性的。由于用传统关联规则Apriori算法推导,会得出很多类似“加强《离散数学》的教学有助于《数据结构》成绩的提高”这样有误导性的规则,使规则数量大大增加,而且由于此规则有一定的误导性,对学生选课的指导意义大大降低,所以应该过滤掉此类规则。但是传统的关联规则算法无法过滤此类规则,所以本文在传统的关联规则算法中增加第三个阈值即兴趣度[7]。在研究了兴趣度的形式化定义和计算方法后,本文最

文档评论(0)

1亿VIP精品文档

相关文档