基于关联规则挖掘高校成绩分析研究.docVIP

下载本文档

3
0
约3.36千字
约 8页
2018-06-23 发布于福建
举报
版权申诉

基于关联规则挖掘高校成绩分析研究.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则挖掘高校成绩分析研究

基于关联规则挖掘高校成绩分析研究　　摘要：本文通过对本校某年级学生成绩进行分析，主要应用数据挖掘中的关联规则和Apriori算法，挖掘出一些合理的课程关联规则，将这些规则运用到教学管理中，可以指导学生选课和合理的设置课程，为高校的教学管理提供参考。　　关键词：数据挖掘；关联规则；成绩管理　　中图分类号：TP311.13 　　努力提高学生的成绩和学生素质是每一所高校的目标，随着高校的办学规模的扩大、办学层次多样化，随着社会的发展，影响学生学习成绩的因素也越来越多，学生成绩分析就更加重要。目前教务管理系统中收集了大量的学生成绩数据，管理者大都采用传统的统计报表形式，对这些数据的处理还停留在数据录入、简单的数据备份和查询阶段，有很大的局限性。　　数据挖掘技术在许多领域，如商业、金融业以及企业的生产、市场营销等一些盈利行业都得到了广泛的应用，但在非盈利行业教育领域的应用相对还较少，将数据挖掘技术引入到教务管理信息系统中，对教务管理系统中的学生成绩数据进行分析，从大量数据存在的关系、规则中研究学生成绩，预测成绩发展趋势，从而能够更好地指导教师排课和学生选课，对学生管理工作有的放矢，提高授课和学习效果能起到非常重要的作用。本文主要使用数据挖掘技术中的关联规则进行高校学生成绩分析，以找出课程之间的关联关系，指导学生选课和合理的设置课程。　　1 数据挖掘关联算法　　1.1 数据挖掘　　数据挖掘是一个应用数据分析工具从大量数据中发现以前未知的和隐蔽的信息，以及数据之间关系的研究领域。这些工具包括统计模型，数学算法和机器学习方法。综合了多学科内容的数据挖掘，把原来对知识的简单应用，比如学生成绩的操作及简单查询等方面扩展到了对知识信息的深度提取运用，比如从现有的学生信息数据库中挖掘对学生成绩有影响的属性信息，帮助学校合理调整教学计划，提高教学质量。出于对此类应用的需求，使数据挖掘这门前沿学科吸引了各个领域的研究者。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有自动预测趋势和行为、关联分析、聚类、概念???述（决策树方法、遗传算法）及偏差检测。本文主要应用了关联规则。　　1.2 关联规则　　关联规则的挖掘是为了在数据库中发现关联关系，它是数据挖掘最先研究的问题之一，也是数据挖掘的一个主要研究方向，起初是研究超市的顾客交易数据库中的购买商品之间的关联规则的挖掘问题，即货物篮数据的关联规则。关联规则挖掘的目的是找出数据库中不同数据项集之间隐藏的关联关系。　　设I={i1，i2，…im}是项的集合。设任务相关的数据D是数据库事务的集合，其中每个事务T是项的集合，使得。每个事务有一个标识符，称作TID。设A是一个项集，事务T包含A当且仅当。关联规则是诸如A=B的蕴涵式，其中，，并且。规则的支持度和置信度是两个规则兴趣度量值，它们分别表示发现规则的有用性和确定性。　　Sup port（A=B）=P（A∪B） confidence（A=B）=P（B/A）　　同时满足最小支持度阈值（min_sup）和最小置信度阈值（min_conf）的规则称作强规则，我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。　　1.3 Aprior算法　　Aprior算法是经典的关联规则挖掘算法，使用一种逐层搜索的迭代方法，k项集用于探索（k+1）项集。首先，找出频繁1项目集的集合，该集合记作L1，然后由L1得到L2，由L2得到L3，如此下去，直到不能找到频繁k一项目集。每找一层Lk均需要一次数据库扫描。　　Apriori算法的在执行过程中存在两个缺点，一个是需要多次扫描事务数据库D，一个是可能产生庞大的候选集。在本文应用中，基于划分的优化方法。使用划分技术，可以只需要对数据库进行两遍扫描，就可以发现全部频繁集，从而大大降低对数据库的扫描遍数。将数据库分成许多区段，在找出频繁项集时，需要经过两步：计算各区段中项集的支持度，以找出各区段中的所有频繁项集：将各区段中所有的频繁项集合结合起来后，再扫描数据库找出真正的频繁项集合。　　2 成绩数据的关联挖掘　　教务管理系统中收集了大量的学生成绩数据，如学生相关可包含学号、姓名、性别、班级、年级、分数等，教师相关可包含教师号、性别、科目、学历、职称、教龄等，课程相关可包含课程名称、课程号、考试类型、考试难度等数据。采取不同的数据挖掘方法，可进行如图1，不同角度分析，挖掘不同的隐藏信息。挖掘获取的信息是不可预测的，但要探索的问题是有预见的，清晰地定义问题，认清数据挖掘的目的是重要的。　　图1 教务管理系统不同角度分析　　2.1 数据采集、清理与转化　　大学课程之间有一定的关联和前后顺序关系，因此分析学生成绩与课程之间的关系为