- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则在高校学生成绩研究中应用
关联规则在高校学生成绩研究中应用
摘要:文章通过对本校某年级计算机专业学生成绩进行分析,主要应用数据挖掘中的关联规则和Apriori算法,使用SQL2005为后台数据库,VC++6.0为开发平台,对现有的成绩进行挖掘分析,从而得到隐藏在这些成绩数据信息之间的有价值信息,这对提高学生的成绩以及教学工作的开展均具有一定的指导意义。
关键词:数据挖掘;关联规则;成绩分析
中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2014)09-1866-03
课程的学习是有先后顺序关系和一定的关联性的,某一门课程的学习的效果或者先后顺序可能会对另外一门课程的学习产生影响,这些课程之间存在不易让人发现的关联关系,所谓学生就是以学为生,学生的学习成绩不仅是体现一个学生的学习效果,更重要的是体现了一个学校的办学质量,如何才能充分利用学校的一切资源,提高学校的办学效果以及学生的学习成绩,是各个学校的根本目标。数据挖掘技术的发展及在各个领域的应用,使得隐藏在大量数据信息中的有价值信息得以挖掘,这给人们各个方面都带来了极大的好处。该文对存储在学分系统中历届学生的学习成绩进行分析,以某个年级学生的成绩为例,
对学生成绩结果数据进行深入的分析,利用数据挖掘关联规则Apriori算法试图挖掘出课程之间的相关性,例如一个课程的学习,从一定程序上影响了另一门课程的学习,为了提高教学效果,提高学习成绩,为我们制定教学计划提供依据。挖掘算法可用于高校教学管理系统是非常多的,该文根据学生成绩模块数据,利用关联规则挖掘,使用SQL2005作为后台数据库,使用VC++6.0开发平台进行数据分析,挖掘出具有一定价值的规则,从而对以后的教学具有指导作用。数据挖掘是由多个步骤完成的。数据挖掘的基本过程如图1所示:
图1 数据挖掘的基本过程
文章根据数据挖掘的基本要求,使用SQL2005为后台数据库,VC++6.0为开发平台开发系统,系统需满足以下条件:(1)可视化界面,即系统简单并易于操作;(2)数据的处理过程简洁有效;(3)与其他工具的兼容性,即和其他开发工具易于集成。
1 关联规则与Apriori算法
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但潜在有用的信息和知识过程[1]。
设I={i1,i2,…im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得[T?I]。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当[A?T] 。关联规则是诸如A=B的蕴涵式,其中 [A?I,B?I] ,并且[A?B≠?] 。规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性[2]。
Support(A=B)=P(A∪B) Con?dence(A=B)=P(B/A)
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,支持度和置信度的取值范围是0到1,使用0%到100%之间的数据表示。
2 建立模型
数据预处理
数据预处理主要包括以下三个步骤:数据清理、数据集成和数据变换[3]。
1) 数据清理:数据清理就是通过消除原始数据集中的错误、噪声、缺损、不一致等元组,提高数据质量。我们这里主要是由于缺考造成部分空值,数据清理空缺值方法是使用属性的平均值填充空缺值的方法。
2) 数据集成:在现有教务管理软件的基础上开发,该文的数据资源已经存储在SQL Server 2000服务器中,均已关系型数据结构存储。
3) 数据变换:以表1学生成绩表作为训练集为例,可见在表1中完全相同的“属性-值”很少,如果直接将其作为项进行挖掘,就不可能得到理想的结果。为了简化数据量,必须对原始数据中的量化属性进行转
化,转换成布尔型离散属性。选取布尔值为1的数据项形成事务表。
对成绩的离散化:成绩的筛选条件为大于等于85分,大于等于85分的转化成布尔型数值”1”,而成绩小于85分的转化成布尔型数值”0”[4]。课程编码:将表1 学生成绩表中的课程名分别以K1,K2,…编码,如“计算机网络”的编码为K1。从学生成绩数据库中提取相关属性,为整个数据挖掘模块提供了数据挖掘对象。由于Apriori算法适用于事务库的数据挖掘,所以需要将关系表转换为相应的事务库。该文将关系表中的除学号外的每个属性视为一个事务。每条记录中每个事物发生的标志为离散化后值为“1”。
例如,表2.1中的第一条记录,转化为事务:{K1,K6,K8,K10,K11}
3 功能实现
利用经典的Apriori[1]算法对数据进行关联
您可能关注的文档
最近下载
- 西门子 go topCT 中文版.pdf VIP
- 复合材料【全套课件】.ppt VIP
- 复合材料 第八章 先进复合材料.ppt VIP
- 人教版八年级物理第九单元《压强》测试题及答案.doc VIP
- 《复合材料学》全套教学课件.pptx
- 复合材料复合材料导论.ppt VIP
- 2025年闽教版(2024)小学英语四年级上册(全册)教学设计(附目录P123).docx
- 冠心病的介绍与治疗PPT.pptx VIP
- 2025云南昆明巫家坝建设发展有限责任公司及下属公司第三季度招聘23人笔试参考题库附答案解析.docx VIP
- 2.2.3 气候——特征和影响因素(课件)八年级地理上册(人教版).pptx VIP
文档评论(0)