基于关联规则高校课程关联性分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则高校课程关联性分析

基于关联规则高校课程关联性分析【摘要】高校教务管理系统将产生海量数据,这些数据中可能隐藏着一些我们以前不知道的大量有用信息。文章采用Apriori算法,对高校学生成绩数据进行关联规则分析,通过学生成绩是否优秀来找到各对应课程之间的相关性,从而科学地安排教学和辅助教学管理决策。 【关键词】数据挖掘;关联规则;成绩;Apriori 【中图分类号】G420 【文献标识码】A 【论文编号】1009―8097(2010)05―0082―03 引言 当前,大多高校已采用基于Web的教务管理系统来开展教务管理工作。在教务管理过程中,将产生海量数据,其中也隐含着大量的信息和知识。如何发掘及利用这些信息和知识是当前高校教务管理过程中的新课题。 数据挖掘(Date Mining,简称DM)是一种决策支持过程,它是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的但又是潜在有用的信息和知识的过程[1]。它涉及到对数据库中大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据。数据挖掘,可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决策。关联规则(Association Rule,简称AR)是当前数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。我们可以考虑使用关联规则来挖掘教务信息中隐含的知识。 一 关联规则的基本概念 设I=是二进制文字的集合,其中的元素称为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且T I。对应每一个交易有惟一的标识,如交易号,记作TID。设X是一个I中项的集合,如果X T,那么称交易T包含X。 一个关联规则是形如X Y的蕴涵式,这里X I,Y I,并且X∩Y= 。规则X Y在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(X Y),即support(X Y)= {T:X∪Y T,T∈D}|/|D|。 规则X Y在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(X Y),即confidence (X Y)= |{T:X∪Y T,T∈D}|/|{T:X T,T∈D}|。 项的集合称为项集(itemset)。包含k个项的项集称为k―项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持度或计数。如果项集满足最小支持度(由用户或领域专家设定),则称它为频繁项集。给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于最小支持度(minsupp)和最小可信度(minconf)的关联规则[2]。 二 Apriori算法介绍 Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则[1],并设计了一个基本算法,其核心是基于频集理论的递推方法,即基于两阶段频集思想的方法,将关联规则的设计分解为两个子问题:(1)发现频集。这个子问题是最重要的,开销最大,因此,各种算法主要致力于提高发现频集的效率。(2)根据所获得的频繁项集,产生强关联规则。根据定义这些规则必须满足信任度阈值。由于步骤(2)中的操作极为简单,因此挖掘关联规则的整个性能就由步骤(1)中的操作处理所决定。该算法利用了如下两个基本性质: 性质1 任何频集的子集必定是频集。 性质2 任何非频繁项集的超集必定是非频繁项集。 算法的基本思想:首先找出所有的频集,然后由频集产生强关联规则[3,4]。 Apriori核心算法分析: Apriori算法是由Agrawal等于1994年提出的[2],其基本思路是重复扫描数据库。其核心程序简要描述如下: L1={large1-itemsets}; for(k = 2;Lk - 1 ≠;k ++ ) do begin Ck=apriori_gen (Lk - 1 ); ∥新的候选集 for all transactions t∈D do begin Ct=subset (Ck,t); ∥事务t中包含的候选集do for all candidates c∈Ct c.count ++ ; end Lk={c∈Ck|c.count minsup} end Answer=∪k Lk ; 三 基于Apriori算法的学生成绩关联分析 1 数据预处理 首先进行维规约,将与最终关联分析无关的维度清除;然后将关系数据库中的数值属性离散化,以便能应用到算法中。考虑到最终的规

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档