- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗集理论的教学评估关联规则挖掘研究
基于粗集理论的教学评估关联规则挖掘研究 摘要:通过关联规则挖掘找出影响教学质量的因素及教学过程中存在的问题,可以有的放矢,以提高教学质量。以某校教学管理系统中的教学数据为案例,基于粗集理论通过数据预处理、属性约简、关联规则挖掘,进行教学评估关联规则挖掘,并对挖掘出的真正有趣的关联规则进行了分析,收到了良好的效果
关键词:粗集;关联规则;离散化;属性约简
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2014)53-0096-03
一、前言
粗集理论(Rough Set Theory,简称RST)是由波兰华沙理工大学Z.Pawlak教授在1982年提出的一种处理模糊和不确定性知识的新型数学工具,是一个具体的数据挖掘技术,其作为人工智能和知识发现的一种实用技术,运用到生产和生活中的各个方面。粗集理论核心思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[1,2]。而教学质量评估指标体系优化的基本思想[3]是在保证对被评估对象评价基本一致的情况下,选择最少、最合理的评价指标,以便降低维数、减少冗余,使评估工作量和不确定性影响因素减少到最低程度,粗集理论中的属性约简方法能很好地解决这个问题。从高校教学管理系统数据库中的原始数据出发,通过将数据库中的连续属性离散化,利用粗集理论属性约简进行教学评估关联规则的挖掘
二、基于粗集理论的教学评估关联规则挖掘
基于粗集的知识理论不需要预先给定某些特征或属性的数量,可从现有的数据出发给出知识的简化和相对简化,基于粗集理论的教学评估关联规则挖掘,整个挖掘过程分为三步:数据预处理、属性约简、关联规则挖掘
1.数据预处理:通过对初始数据进行清洗,缺失值处理,转换及数据选择,获取初始信息表,对初始表离散化转换为粗糙集形式,明确条件属性集和决策属性
2.属性约简:对条件属性进行约简,删除多余属性,用属性约简算法完成求核和约简,生成约简属性集
3.关联规则挖掘:根据数据约简结果,将粗集理论的属性约简应用到关联规则挖掘中,对规则进行抽取和约简;输入加权支持度阈值和置信度阈值,进行规则的过滤,对规则进行相关性分析,减少伪规则
基于粗集理论的教学评估关联规则挖掘结构图如图1所示
三、教学评估关联规则挖掘核心实现
(一)教学评估关联规则挖掘数据预处理
数据挖掘成功与否,数据准备至关重要,是实现数据挖掘应用的前提。数据准备内容:一是从多种数据源中综合数据挖掘所需要的原始资料,保证数据的综合性、易用性以及数据的质量和时效性;二是如何从现有数据中衍生出所需要的指标。以某校教学管理系统中获取的课程信息、教师信息、教师评教信息、学生信息等为研究对象,根据数据挖掘的目的,筛选数据,在上述信息中选取适用的信息,建立数据源表,将数据源表中的源数据结构按一定的数据变换规则,将年龄、工作量、科研工作量、成绩、评教分数分别变换成年龄段、工作量段、科研工作量段、成绩等级、评教等级
利用“等区间”离散化方法[4]对挖掘的数据进行离散化。将评价指标中的出生日期、性别、学历、职称、工作量、科研工作量、课程名称、课程类别、学生入学成绩、学生在校成绩分别记作a、b、c、d、e、f、g、h、i、j,且出生日期即年龄,有青、中、中老、老四个阶段,以符号1、2、3、4记,即a={青、中、中老、老}={1、2、3、4},同理性别b={男、女}={1、2},学历c={博士、硕士、本科、其他}={1、2、3、4},职称d={教授、副教授、讲师、助教}={1、2、3、4},工作量e={未满、满、超}={1,2,3},科研工作量f={未完成、完成、超}={1,2,3},对课程名称离散数学、汇编语言程序设计、算法与数据结构、微型机系统与接口等,分别以g1,g2,g3,g4,…,gn进行编码,课程类别h={公共基础课、专业基础课、专业核心课、专业方向课}={1、2、3、4},学生入学成绩i={优良、中、及、差}={1、2、3、4},学生在校成绩j、j’={优良、中、及、差}={1、2、3、4},其中j、j’为前面所述所有课程g1,g2,g3,g4,…,gn的各科成绩和平均成绩,评价目标评教分数以k表示,且评教分数k={好、较好、一般、差}={1、2、3、4},建立评价决策表,共有85个样本数据,其中评价目标为1、2、3、4的样本数据分别是24、30、17、14
(二)属性约简
将85个样本数据存储在SQL Server数据库中,用VB语言编写基于分辨矩阵和属性重要性的属性约简算法程序,最终得出最优或次优约简{a,c,d,e,j,j’},根据这6个指标重新建立决策表,如表1所示,求得评价目标“好”的下近似中有24个对象,上近似中有24个对象;“
文档评论(0)