- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的关联规则算法在教学评价中的研究与应用.doc
改进的关联规则算法在教学评价中的研究与应用
【摘要】数据挖掘就是从海量的数据中挖掘出潜在的、有价值的知识。在数据中隐含的未被人们发现的确实存在的内在联系与规律。学生对老师的教学评价是教学管理的一个重要部分,如何找出教学评价中大量数据之间的联系,是评价教师教学质量和提高教学水平的重要手段。本文利用了一种基于Apriori算法的改进的算法——Apriori_B算法对这个教学评价系统进行数据挖掘。
【关键词】数据挖掘;关联规则;Apriori_B算法;教学评价
教学质量是学校教育的根本,它和每位师生都息息相关。教学评价就是根据教学目标和原则,系统的收集信息给教学活动和教学结果给予判断。目的在于能够有效的掌握教学情况,发现问题并改进问题。但是大量的评价数据都存放在数据库中,只供查看。对于这些数据隐含的信息没有进行充分的挖掘和利用,本文在数据挖掘的基础上,对这些数据进行关联规则挖掘,找出隐含的有价值的信息,以供教学管理部门参考,并改进工作。
1.数据挖掘的概念
数据挖掘就是从大量的、不完整的、不一致的、有噪声的数据中挖掘出隐含在其中的,人们事先不知道的、但又潜在的有价值的信息和知识的过程。数据挖掘的过程大致可分为:问题的定义,数据收集和数据预处理,数据挖掘算法的执行,结果的解释和评估。
2.关联规则的相关概念及其算法
2.1 关联规则的相关概念
1)关联规则
关联规则是指数据之间的简单的使用规则,是指数据之间的相互依赖关系。关联规则形如:XY;其中XI,YI,并且X∩Y=。X为先决条件,Y为结果;关联规则反映了项目集X出现的同时项目集Y也会跟着出现。如购买钢笔同时会购买墨水。
2)支持度(Support)
设X属于数据项目集,为事务数据库中包含X的记录条数,为事务数据库中记录的总个数,那么项目集X的支持度=/支持度表示项目集在事物集中出现的频率的是多少。例如事务数据库中总共100数据,其中含有矿泉水的记录有10条,那么矿泉水的支持度是10/100=0.1。
3)置信度(Confidence)
有关联规则XY,其中XI,YI,并且X∩Y=,那么XY的置信度为:
Conf(XY)=*100%=P(Y|X)
置信度是反映在事物X中出现事物Y的条件概率。例如在买了面包的顾客中有80%会买牛奶。
2.2 关联规则的中的Apriori算法
Apriori算法挖掘关联规则的思想主要分为两个步骤:
(1)找到所有的频繁项集
用户设定最小支持度min-supp,找出所有的项集大于最小支持度min-supp的,即为频繁项集。一般情况下,我们只关心那些不被其他频繁项集所包含的所谓的频繁大项集的集合,这些频繁大项集是形成关联规则的基础。
(2)由频繁项集产生关联规则
用户设定最小置信度min-conf,在每个最大频繁项集中,寻找置信度大于等于最小置信度min-conf的关联规则。
在挖掘关联规则中最常用的算法是Apriori算法,Apriori算法利用了候选项集和频繁项集的相互作用来找到所有的频繁项集,并通过对候选项集的剪枝,减小了候选项集的大小,获得比较好的效果。但是在挖掘对象的项集较多而且又比较长时或者给定的最小支持度比较小时,Apriori算法仍然是效率非常低的。主要体现在下面两个方面:
(1)在产生关联规则的过程中,Apriori算法需要反复的扫描事务数据库,当在项集比较长时,Apriori算法需要将k-候选项集中的每一个子集都要逐个扫描进行匹配,看是否属于k-1-频繁项集,不是就要进行剪枝。这个过程必然引起很大的计算量,对I/O造成巨大的压力并且运行时间过长,效率很低。
(2)将k-1-频繁项集组合生成k-候选项集时,并且随着频繁1-项集的增多而增多,而且增多的速度相当的快。当1-频繁项集达到1万时,候选2-项集中项的个数会超过。因此需要挖掘的候选项集的所包含的项数过多的话这个计算量也是非常惊人的。
3.一种改进的算法Apriori_B算法
3.1 Apriori_B算法的基本思想
算法的基本思想如下:
Aprior_B算法的基本思想是对事务数据库中的所有项进行二进制编码,在编码的同时统计出支持度计数,并生成频繁1-项集,然后通过对编码进行逻辑“与”运算得出频繁2-项集,就这样循环下去最终得到符合条件的关联规则,这个算法只需要扫描一遍数据库,并且也减少了候选项集的数量提高了算法的效率。
首先要根据事务数据库中记录的个数决定编码的长度,并对这些记录进行排序,每一个记录对应编码中的一个位置,如若某一个项在记录中出现,就在这个项的位置上设置“1”,否则就设置成“0”。例如,事务
您可能关注的文档
最近下载
- 妇产科专业质量控制标准(医疗质量控制标准).pdf VIP
- 直升机系统-2(王华明--03)说课讲解.ppt VIP
- 肝性脑病患者护理查房.pptx VIP
- 小学生自制课本剧提升语文表达能力教学研究课题报告.docx
- 人教版八年级上册数学期中考试试题带答案.docx VIP
- 2025至2030全球及中国太空发射服务行业市场深度研究及发展前景投资可行性分析报告.docx VIP
- 爱国卫生知识竞赛题库(试题及答案).docx VIP
- 世界油页岩干馏技术.ppt VIP
- 小学英语三年级上册 Unit 6 Happy birthday! 第3课时分层作业 Part A Letters and sounds.docx VIP
- 2021年“华为杯”第十八届中国研究生数学建模竞赛题目D:抗乳腺癌候选药物的优化建模优秀论文范例含源代码(共五篇).pdf VIP
文档评论(0)