- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关系数据库高校成绩数据关联规则挖掘
基于关系数据库高校成绩数据关联规则挖掘
摘 要:本文针对高校数据库的特点,利用SQL语句与Apriori算法结合,提出一种基于关系数据库的关联规则挖掘算法,该算法解决了Apriori算法不适合数值型数据挖掘的问题。为了验证算法的有效性,本文将之运用于成绩数据的挖掘,得出了课程之间的关系及学生可能不合格的课程,为学生选课和学生由于成绩不合格留级、退学的预警管理提供依据。
关键词:数据挖掘 关联规则 关系数据库 成绩
中图分类号:G434 文献标识码:A 文章编号:1673-8454(2008)09-0074-03
一、引言
数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它能高度自动化地分析原有数据,作出归纳性推理,从中挖掘出潜在的模式,从而帮助决策者调整策略,作出正确的决策。数据挖掘主要包括分类分析、聚类分析、关联规则挖掘、序列数据挖掘和孤立点检测等,其中关联规则是一种重要的数据挖掘技术,其目的主要是寻找数据项中的有趣联系,决定哪些事情将一起发生。它首先是由Agawal等人提出,用于处理事务型数据库,现在已经成为数据挖掘领域一个重要的研究课题。[1]关联规则分为两种:布尔型关联规则和多值型关联规则。高校数据库中主要包括与教学、人事、学生、科研及设备等相关的数据,主体是基于关系型数据库(Oracle、SQL Server等)的多值型数据。当前的关联规则主要研究的是基于事务型数据库的布尔型关联规则挖掘,其中Apriori算法是最流行的关联规则算法,但标准的Apriori只能适用于事务型的布尔型数据。高校的教育工作者尤其是数据管理方面的人员并不熟悉事务型数据,进行关联规则挖掘需转化多值型数据为布尔型数据,须花费大量的时间和存储空间,并不利于高校数据的关联规则挖掘的实施。于是提出一种利用关系型数据本身的优化机制,并结合数据挖掘的传统算法的新的关联规则挖掘方法就是数据挖掘专家和教育工作者的一个新的课题。本文针对高校不同的数据组织形式,在SQL语言与标准Apriori算法结合的基础上,提出一种改进的基于关系数据库的关联规则挖掘算法,并以教学中学生考试数据对算法进行了验证,说明本文中的算法为高校数据挖掘提供了新的思路。
二、关联规则挖掘的形式化描述
设{i1,i2,…,im}是由m个不同的数据项组成的集合,其中的元素称为项(Item),项的集合称为项集,包含k个项的项集称为k项集。给定一个事务(交易)D,即交易数据库,其中的每一个事务(交易)T是数据项I的一个子集,即T?哿I。每一个交易都与一个唯一的标识符TID相关联。
定义1关联规则是形如X?圯Y的蕴含式,其中X?奂I,Y?奂I,而且X∩Y={?准}。
定义2关联规则X?圯Y在D中具有支持度s:表示D中s%的交易包含X∪Y。
定义3关联规则X?圯Y在D中可信度c:表示D中c%的包含X的交易同时也包含Y。
定义4两个阈值:进行关联规则挖掘时所设置的最小支持度阈值(min_sup)和最小可信度阈值(min_conf)。
定义5 k频繁项集:满足最小支持度的k项目集称为k频繁项集。
定义6 同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则才是有意义的规则,称作强规则。
关联规则挖掘的目标就是找出数据集中的所有强规则。该问题可以分解为两个子问题:(1)求出D中满足最小支持度的所有频繁项集;(2)利用第一步产生的频繁项集,生成满足最小可信度的所有关联规则。第二步相对比较简单,对每个频繁项集L计算其所有的非空子集,对每个非空子集a,考察规则a?圯(L-a),如果该规则的可信度大于最小可信度,则输出此规则。问题1是关联规则挖掘的关键部分,Apriori被认为就是求频繁项目集的最经典的算法。该算法利用了频繁项目集的基本原理:若项目集X是频繁的,则X的任何子集都是频繁的;反之,若X是非频繁的,则其任何超集都是非频繁的。
三、基于关系数据库改进的关联规则挖掘算法
关系数据库是高校海量数据的主要存储形式,其主要通过表来存储。表有多个属性,每个属性有多个值,这就使得在其上进行数据挖掘有一定的难度。尤其对于成绩、年龄、收入等连续的数值型数据,并不适合关联规则挖掘,必须对数据进行离散化。
1.数据离散化
数据离散化技术就是将属性值域划分为区间,来减少给定连续属性值的个数。区间的标记可以替代实际的数据值,用少数区间标记替换连续属性的数值,可以减少和简化原始数据,并将使挖掘结果简洁、易于使用。离散化技术可以
原创力文档


文档评论(0)