- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在中等职业学校管理实践中应用研究
数据挖掘技术在中等职业学校管理实践中应用研究
中图分类号:G718.3文献标识码:A 文章编号:41-1413(2011)12-0000-02
摘要:我国中等职业教育的学校规模、在校生人数等都有了很大的发展,高效的数据管理对学校发展起到越来越重要的作用。利用Hash树和Fp树对Apriori算法对学生信息、教学信息、后勤信息进行分析和研究,并进行优化和实施关联规则挖掘,用遗传算法对挖掘成果进行优化,以此来推动中等职业教育的发展。
关键词: 数据挖掘;关联规则;遗传算法
1 引言
信息时代的计算机数据存储技术等得到了飞速发展。大量的数据与数据分析处理方法相互结合产生了数据挖掘技术,目前数据挖掘是在许多领域和方面得到了广泛应用的技术。随着中等职业教育的发展,提高职业教育质量已成为一个系统工程。目前职业学校已存储了以学校教学实践为中心的大量数据,但是其背后所蕴含的大量有用信息并未得到发现和利用,主要是因为利用分析方法不适应职业学校的大量复杂数据。利用数据挖掘技术从中发现有价值的信息可以指导职业学校教学、就业、后勤等各方面的管理,提高管理效率,降低成本,推动职业教育更好的发展。
2关联规则挖掘算法
2.1 Apriori算法及改进
Apriori算法是关联规则挖掘的基本算法,它利用项集的先验性知识和层次顺序的循环搜索方法来发现频繁项集,首先产生频繁1-项集L1;然后利用L1来产生频繁2-项集L2,不断循环下去直到无法发现更多的频繁K-项集为止。
从两个方面对Apriori算法进行改进。
2.1.1 利用HASH树对支持度进行计数
HASH树根节点为空,用HASH函数来决定内部节点的分支走向,遍历HASH树可以对候选项集支持度进行计数,用HASH树对候选项集的支持度进行计数,避免了穷举法对事务中的每个项集与候选项集进行比较,而是进行了分类,降低了支持度计数的任务量。
2.1.2 用FP树提取频繁项集
FP树(frequent pattern tree)实现了对数据的紧凑表示,可以从该结构中直接提取频繁项集。FP树之中的一条路径所表示的数据序列对应一条事务中的数据,对于不同事务中相同的数据项对应的FP树中的路径可以重叠,从而实现了事务数据的紧凑表示。FP树的节点包括数据项的标记和计数,计数表示经过该路经的事务个数。
(1)对各数据项的数据按照它们的支持度计数的递减顺序排序,从而调整数据集中各数据的次序。
(2)由数据集构造FP树,对第一个事务创建从根节点到事务中各数据的路径并进行支持度计数。
(3)继续读入事务,与创建过路径的事务进行比较将新事务加入FP树,如果与创建过的事务有相同的路径则合并相同的路径,相应节点支持度增加,不同路径增加不同的分支,进行支持度计数。
(4)继续该过程直到所有的事务都映射到FP树。
(5)由FP树依据不同的结尾进行划分,产生以其为后缀的路径。
(6)不同的后缀产生相应的频繁项集。
2.2关联规则的发现
由频繁项集可以较为容易地产生相应的关联规则,可以通过计算置信度来获得强关联规则,关联规则的操作为:
2.2.1 对于每个频繁项集L产生所有的非空子集。
2.2.2 对于L的非空子集 ,如果c( L- )= ≥min_s,则产生(L- )的关联规则, min_s为最小置信度阀值。
3学校信息的数据挖掘
3.1 对学校信息进行关联挖掘
下边以有代表性的学生就业方面信息为例来进行分析。就业信息库中的数据项包括:学生的编号、成绩、学生干部、操行等级、实践动手能力、就业单位,其中编号为学生的唯一标识。为了便于数据存取现在对各数据项的内容进行编号,其中成绩项分为:优(a1),良(a2),一般(a3);学生干部分为:是(b1)、不是(b2);操行等级程度分为:良(c1)、优(c2)、一般(c3);实践动手能力分为:强(d1)、较强(d2)、一般(d3)。就业单位分为:大型公有企业(e1)、大型私企 (e2)、一般公有企业 (e3)、一般私企(e4)。
现有部分学生就业信息:
编号 成绩 学生干部 操行等级 实践动手能力 就业单位
1 a2 b2 c1 d1 e3
2 a1 b1 c2 d2 e1
3 a1 b1 c2 d1 e1
4 a2 b2 c2 d2 e2
5 a2 b1 c1 d2 e3
表3.1部分学生就业信息表
学生信息库中共有125条学生就业方面的信息,应用挖掘软件对其进行数据挖掘,最小支持度选定为0.3,最小置信度选定为0.5。其数据信息和挖掘结果如下所示:
图3.1数据库中的数据 图3
您可能关注的文档
最近下载
- 文化公园建设的策略及实施路径.docx
- 91SB1-1 暖气工程(工程图集).docx
- 合并工作底稿完整版带公式.xls VIP
- 我的祖国-原版-正谱-钢琴谱-五线谱-乐谱.pdf VIP
- 文字资源的处理方法(教学设计)-2024-2025学年陕教版2024小学信息技术三年级上册.docx VIP
- 拆除路面从新铺设人行道施工方案 经典.doc VIP
- 中国现当代文学作品论文范文(合集6).docx VIP
- 積體電路之靜電放電防護 - 柯明道 (Ming-Dou Ker) 教授.pdf
- 一种加工曲轴专用夹具.pdf VIP
- UL969标准中文版-2018标识和标签系统UL中文版标准.docx VIP
文档评论(0)