基于Apriori算法的高校学生成绩数据关联规则挖掘分析.docVIP

基于Apriori算法的高校学生成绩数据关联规则挖掘分析.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Apriori算法的高校学生成绩数据关联规则挖掘分析.doc

基于Apriori算法的高校学生成绩数据关联规则挖掘分析   摘 要   高校在长期的教学管理过程中积累了海量的学生成绩信息,但是普遍的对于成绩的分析处理工作还停留在简单的查询、分析和统计阶段。本文利用关联规则Apriori算法,以学生成绩数据为研究对象,挖掘课程之间的相互关系,为科学的制定人才培养方案,提高高校人才培养质量进行了积极地探索与研究。   【关键词】成绩分析 关联规则 Apriori算法   1 数据挖掘   数据挖掘其实就是从大量、有噪声、随机性、不完全、模糊的应用数据中,提取并隐藏在应用数据中心、人们不知道但是有价值的信息和知识的过程,通过数据挖掘系统能够自动分析原有数据,并作出归纳总结,挖掘出数据原有的模式,为决策者提供参考价。数据挖掘包括数据仓库、预处理、分类聚类、关联分析等。关联分析是数据挖掘最贴近我们生活的一部分了,登录亚马逊网站,当我们挑选一本《Android4高级编程》时,网站会不失时机的列出你可能还会感兴趣的书籍,如Android游戏开发、Cocos2d-x引擎等,让我们的购物车变得更充实,而钱包又空了些。   数据挖掘是一门综合了统计学、信息技术、人工智能等多项技术。其中数据挖掘聚类和决策树则是机器学习理论知识。关联性规则挖掘技术对数据挖掘技术具有非常重大的意义,它进一步扩展了数据挖掘的研究,到如今已经成为了数据挖掘领域中的一个分支。关联性规则不仅体现数据之间的关联,更为重要的是关联系规则的表达简洁,便于理解,近年来已经成为数据挖掘技术研究领域的热点话题。   2 关联规则Apriori算法   Apriori算法是关联规则算法之一。Apriori算法的第一遍仅仅计算每个项目的具体指的数量,以确定大型1项集。随后的遍历,第k次遍历,包括两个阶段。首先,使用在第(k-1)次遍历中找到的大项集Lk-1和Apriori-gen函数产生候选项集。接着扫描数据库,计算中候选的支持度,从而得到中的支持度不小于最小支持度的k阶大项集。重复以上步骤,直到某一阶的大项集为空时,算法停止。   Apriori算法指导我们,如果要发现强关联规则,就必须先找到频繁集。所谓频繁集,即支持度大于最小支持度的项集。如何得到数据集合D中的所有频繁集呢?   用一种非常原始的办法来分析,就是对于数据集D,遍历每一条记录T,可以得到T的所有子集,然后计算每一个子集的支持度,最后再将结果与最小支持度比较。我们暂且不管数据集D中有多少条记录,就说每一条记录T的子集个数,{1,2,3}的子集有{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3},即如果记录T中含有n项,那么它的子集个数是-1。计算量是非常大的,很明显这种方法是不可取的。   因此,Aprior算法提出了一个逐层搜索的方法,如何逐层搜索呢?包含两个步骤:   (1)自连接获取候选集。第一轮的候选集就是数据集D中的项,而其他轮次的候选集则是由前一轮次频繁集自连接得到(频繁集由候选集剪枝得到)。   (2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。   算法的终止条件是,如果自连接得到的已经不再是频繁集,那么取最后一次得到的频繁集作为结果。   3 教务管理系统中的学生成绩数据挖掘   学生的考试成绩不仅体现了学生阶段性的学习效果,而且是检验学校教学效果的重要依据。为了提高学校教学质量,所以必须对学生的考试成绩进行数据挖掘,挖掘出学生考试成绩背后的关键性因素,可以从学生的性别、专业、课程、入学成绩、老师对学生的考核评价等因素为切入点,分析这些因素对学生成绩产生的影响,并找出各个要素之间的潜在规律,从而分析出影响学生考试成绩的主要因素,并预测学生哪一部分成绩还需要进一步加强。采用关联系规则对学生成绩进行数据挖掘,通过数据仓库查看各个专业学生课程成绩单,并分析各个课程与其他课程之间的关联和影响,从而制定专业的人才培养计划。在制定计划的时候,依次从公共课、专业课到拓展课等方面设置相关课程。不同的专业开设课程的时间不同,开课时间次序对学生学习后续课程会产生一定的影响。但是过去很多高校在课程安排上比较随意,通常都是高校教务处的人根据过去的教学经验和主观认知,安排学生的课程时间。然而每一门课程都有它的特点,比如体育课学生可能需要大量的运动,消耗的体能比较多,运动过后学生无论精神上还是身体上都比较疲惫,这个时候上课的效果就不太好,所以在安排课程的时候,尽量将体育课安排到下午的时间段,这样不会学校其他课程的教学效果。通过关联性分析,找出每一门课程的影响因素,合理安排课程的先后顺序,为人才方案制定者提供科学的决策依据。  

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档