基于Apriori算法的高校学生成绩数据关联规则挖掘分析.docVIP

下载本文档

18
0
约 7页
2017-08-25 发布于北京
举报
版权申诉

基于Apriori算法的高校学生成绩数据关联规则挖掘分析.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Apriori算法的高校学生成绩数据关联规则挖掘分析.doc

基于Apriori算法的高校学生成绩数据关联规则挖掘分析　　摘要　　高校在长期的教学管理过程中积累了海量的学生成绩信息，但是普遍的对于成绩的分析处理工作还停留在简单的查询、分析和统计阶段。本文利用关联规则Apriori算法，以学生成绩数据为研究对象，挖掘课程之间的相互关系，为科学的制定人才培养方案，提高高校人才培养质量进行了积极地探索与研究。　　【关键词】成绩分析关联规则 Apriori算法　　1 数据挖掘　　数据挖掘其实就是从大量、有噪声、随机性、不完全、模糊的应用数据中，提取并隐藏在应用数据中心、人们不知道但是有价值的信息和知识的过程，通过数据挖掘系统能够自动分析原有数据，并作出归纳总结，挖掘出数据原有的模式，为决策者提供参考价。数据挖掘包括数据仓库、预处理、分类聚类、关联分析等。关联分析是数据挖掘最贴近我们生活的一部分了，登录亚马逊网站，当我们挑选一本《Android4高级编程》时，网站会不失时机的列出你可能还会感兴趣的书籍，如Android游戏开发、Cocos2d-x引擎等，让我们的购物车变得更充实，而钱包又空了些。　　数据挖掘是一门综合了统计学、信息技术、人工智能等多项技术。其中数据挖掘聚类和决策树则是机器学习理论知识。关联性规则挖掘技术对数据挖掘技术具有非常重大的意义，它进一步扩展了数据挖掘的研究，到如今已经成为了数据挖掘领域中的一个分支。关联性规则不仅体现数据之间的关联，更为重要的是关联系规则的表达简洁，便于理解，近年来已经成为数据挖掘技术研究领域的热点话题。　　2 关联规则Apriori算法　　Apriori算法是关联规则算法之一。Apriori算法的第一遍仅仅计算每个项目的具体指的数量，以确定大型1项集。随后的遍历，第k次遍历，包括两个阶段。首先，使用在第（k-1）次遍历中找到的大项集Lk-1和Apriori-gen函数产生候选项集。接着扫描数据库，计算中候选的支持度，从而得到中的支持度不小于最小支持度的k阶大项集。重复以上步骤，直到某一阶的大项集为空时，算法停止。　　Apriori算法指导我们，如果要发现强关联规则，就必须先找到频繁集。所谓频繁集，即支持度大于最小支持度的项集。如何得到数据集合D中的所有频繁集呢？　　用一种非常原始的办法来分析，就是对于数据集D，遍历每一条记录T，可以得到T的所有子集，然后计算每一个子集的支持度，最后再将结果与最小支持度比较。我们暂且不管数据集D中有多少条记录，就说每一条记录T的子集个数，{1，2，3}的子集有{1}，{2}，{3}，{1，2}，{2，3}，{1，3}，{1，2，3}，即如果记录T中含有n项，那么它的子集个数是-1。计算量是非常大的，很明显这种方法是不可取的。　　因此，Aprior算法提出了一个逐层搜索的方法，如何逐层搜索呢？包含两个步骤：　　（1）自连接获取候选集。第一轮的候选集就是数据集D中的项，而其他轮次的候选集则是由前一轮次频繁集自连接得到（频繁集由候选集剪枝得到）。　　（2）对于候选集进行剪枝。如何剪枝呢？候选集的每一条记录T，如果它的支持度小于最小支持度，那么就会被剪掉；此外，如果一条记录T，它的子集有不是频繁集的，也会被剪掉。　　算法的终止条件是，如果自连接得到的已经不再是频繁集，那么取最后一次得到的频繁集作为结果。　　3 教务管理系统中的学生成绩数据挖掘　　学生的考试成绩不仅体现了学生阶段性的学习效果，而且是检验学校教学效果的重要依据。为了提高学校教学质量，所以必须对学生的考试成绩进行数据挖掘，挖掘出学生考试成绩背后的关键性因素，可以从学生的性别、专业、课程、入学成绩、老师对学生的考核评价等因素为切入点，分析这些因素对学生成绩产生的影响，并找出各个要素之间的潜在规律，从而分析出影响学生考试成绩的主要因素，并预测学生哪一部分成绩还需要进一步加强。采用关联系规则对学生成绩进行数据挖掘，通过数据仓库查看各个专业学生课程成绩单，并分析各个课程与其他课程之间的关联和影响，从而制定专业的人才培养计划。在制定计划的时候，依次从公共课、专业课到拓展课等方面设置相关课程。不同的专业开设课程的时间不同，开课时间次序对学生学习后续课程会产生一定的影响。但是过去很多高校在课程安排上比较随意，通常都是高校教务处的人根据过去的教学经验和主观认知，安排学生的课程时间。然而每一门课程都有它的特点，比如体育课学生可能需要大量的运动，消耗的体能比较多，运动过后学生无论精神上还是身体上都比较疲惫，这个时候上课的效果就不太好，所以在安排课程的时候，尽量将体育课安排到下午的时间段，这样不会学校其他课程的教学效果。通过关联性分析，找出每一门课程的影响因素，合理安排课程的先后顺序，为人才方案制定者提供科学的决策依据。