数据挖掘技术在学生信息中的应用.docVIP

下载本文档

9
0
约4.35千字
约 8页
2017-03-02 发布于北京
举报
版权申诉

数据挖掘技术在学生信息中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在学生信息中的应用.doc

数据挖掘技术在学生信息中的应用　　【摘要】随着我国教育信息化进程不断推进，信息技术和数据挖掘技术在教育领域得到广泛的应用。在“以学习者为中心”的思想指导下，利用数据挖掘技术对学生的成绩信息进行数据分析和预测，应用Apriori关联规则算法挖掘出影响学生成绩的潜在的规律，为学校对学生的管理决策提供依据。　　【关键词】数据挖掘；关联规则；Apriori算法；学生信息；数据　　1.引言　　当今，我国的教育信息化水平在不断的推进和提高，国内的很多高校和高职学校都积累了非常多的、信息量非常大的学生信息。面对如此多的海量数据，高校的工作人员往往只是获取其中的表面信息，而隐藏在海量数据中的大量有用信息都没被挖掘出来，从而失去了发挥其真正价值的机会。在科技发展迅速和竞争越来越白热化的今天，如何提高学生的学习能力和学习成绩，从而为国家培养出更多的、优秀的优秀毕业生是国内很多高校都非常关注的重点。国内的高校需要适应社会的发展，引入新的信息化手段，采用数据挖掘技术来对已有的海量数据资源进行充分合理的利用，找出高校学生信息中潜在的有价值的信息，为学校的教育教学工作的开展提供足够的理论和事实依据。　　2.数据挖掘技术概述　　数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，也被人们称为知识挖掘、知识发现等。　　数据挖掘技术是人们在长时间对数据库技术进行分析和研究，并进行开发的结果，它是一类对数据库中的信息进行深层次的数据分析的方法。它将用户对数据库的信息的应用才能够较低层次的简单查询操作，提高到了从信息中挖掘规则、提供分析、预测、决策支持等高级应用。它和传统意义上的数据分析是有较大的区别的，是在缺乏较明确的假设前提情况下进行数据挖掘和发现规则的，所以通过数据挖掘技术挖掘到的信息和知识往往是预先没有预料到的，不能靠直觉来发现。一般而言，通过数据挖掘技术挖掘出的信息越是出乎意料，就越有效，越具有实用价值。　　2.1 关联规则挖掘　　关联分析又称为关联规则，是数据挖掘一个重要的研究分支，是指从给定数据项中发现频繁出现的模式知识。通过关联分析，能表述并反映出研究数据和其他数据之间依赖或关联，找到他们中隐藏的关联网。关联规则是形如X---Y的规则，表示满足X的数据库元祖也很可能会满足Y。　　基于关联规则的挖掘过程实质上寻找强关联规则的过程，首先迭代识别所有的频繁项集，依据数据可信度和数据支持度挑选对用户要求有现实意义的关联规则，即不被其他任何项集包含的最大频繁项集集合，丢弃无用的关联规则。然后由频繁集产生强关联规则，产生的这些规则必须满足最小的数据可信度与支持度。　　关联分为简单关联、因果关联和时序关联三种类型。关联规则的挖掘一直都是研究的热点，广泛应用于事务分析和市场营销等应用领域，经典的算法如APriori算法、Fp-tree算法等。　　2.2 Apriori算法　　APriori算法是关联规则中提取的经典算法，是一种广度优先算法，通过对数据库D的所有事务数据项的多次扫描来计算项集的支持度，发现所有的频繁项目集后，进一步生产关联规则。在每次扫描中只考虑所含项个数相同的所有项集。　　Apriori算法按项目集从小到大的顺序寻找频繁项目集，算法的核心思想是：频繁项集的任何非空真子集都是频繁项集，非频繁项集的所有超集都是非频繁项集，必定不是频繁的。利用该性质，可以用来有效地修剪候选项目集，减少算法的搜索空间，提高频繁项集逐层搜索的效率。　　用Lk表示频繁k项集，通过Lk-1找到Lk的过程由连接和剪枝两步组成。　　（1）连接：Lk自连接，自连接产生候选k-项集的集合，记作Ck。将Lk中具有相同（k-1）-前缀的项集连接成长度为k的候选项集。　　（2）剪枝：如果项集的所有长度为k的子集都在Lk中，该项集才能作为候选项集被加入Ck+1中。扫描数据库确定Ck中每个候选的支持度，依据用户设定的最小支持度阀值进行验证，去除小于支持最小支持度阀值的非频繁k-项集，进而找到Lk。　　Apriori算法是逐层搜索的迭代方法，需要重复的扫描数据库以确定各个候选项集的支持度计数，同时会产生大量候选项集。在找到了事务数据库中的所有频繁项集后，利用这些频繁项集可以产生关联规则。　　3.基于数据挖掘的高校学生成绩分析　　3.1 数据挖掘的问题定义　　文章针对的数据挖掘对象主要是学校中的学生，通过对学生信息的研究，采用数据挖掘技术对学生的相关信息，如高考录取分数、单科分数，学生饿出勤率，不及格科目的数量、重修的学期等信息，找出有价值的关联规则，为以后学校的教学工作进行指导。　　3.2 数据采集　　高质量的输入数据，是保证数据挖掘成功的前提条件。　　（1）