基于云计算环境考试数据挖掘算法研究.docVIP

下载本文档

1
0
约4.99千字
约 11页
2018-06-23 发布于福建
举报
版权申诉

基于云计算环境考试数据挖掘算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于云计算环境考试数据挖掘算法研究

基于云计算环境考试数据挖掘算法研究　　【摘要】本文分析了当前网络考试系统数据挖掘现状，介绍了云计算和数据挖掘的相关概念，指出传统数据挖掘技术在当今考试系统海量数据情况下挖掘时系统响应速度慢，负载不均衡和节点效率低的不足，设计了基于Map/Reduce并行编程模型的Apriori算法，利用云计算环境下计算资源来支持该算法的并行执行，通过实例说明云计算化后的Apriori算法在对海量考试数据进行挖掘时能获得更高的挖掘效率。　　【关键词】云计算；关联规则；Apriori Map/Reduce 　　1 引言　　随着我国开放大学建立及网络学院的发展，高中起点升本科，专科起点升本科，高中起点升大专三个层次的多个不同专业吸引了更多的人选择参加远程教育完成学习，网络学习云平台上及网络考试系统中也就保存了大量数据，在这些数据中隐藏很多对远程教学有价值的信息，有助于教学管理人员及时分析学生学习情况，更好地整合网络学习平台上的教育资源。如果仅使用传统数据挖掘方法，就会由于数据量巨大而导致系统处理速度缓慢，频繁的输入输出会影响系统响应时间，节点效率不同也会出现挖掘效率不高的情况。为此在对网上考试系统所存储的海量数据信息进行挖掘时，引入能够在云计算环境下运行的数据挖掘算法，利用云计算环境中分布的计算节点，来支持数据挖掘算法的并行执行，弥补传统数据挖掘算法的不足，能从海量的考试数据资源中找出有价值的数据信息。　　2 云计算与数据挖掘相关概念　　2.1 云计算下MAP/REDUCE并行编程模型介绍　　云计算的概念最先由Google埃里克·施密特在2006年首次提出，其基本原理是将大的海量数据的计算任务分割成小的微量的计算任务，将计算任务细分后由分布在网络上的计算节点通过并行计算实现，最后将细化的计算结果数据汇总，得到最后的计算结果。在当前的网络教学平台中就已经开始引入云的概念，将优质的教学资源作为云，学习者只访问自己学习相关的资源而不用考虑该资源所在位置，学习结束后通过网上考试系统完成测试。　　MapReduce 是 Google 发明的并行分布式编程模型，被广泛应用于云数据计算中，用MapReduce来处理的数??任务必须能分解成独立的小数据集，而且各个小数据集能够并行处理，通过 Map阶段将待处理数据分割成小的独立数据块，分别让不同的空闲计算节点来进行计算，达到分布式运算的效果，再通过 Reduce 程序将计算结果汇总输出。　　2.2 关联规则及Apriori算法介绍　　数据挖掘目前公认的定义是：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。　　关联规则由Agrawal 等于1993年首先提出，就是要从当前数据库中挖掘出各个项集间存在的某种规则，形成关联规则的项目集必须是频繁项目集，也应满足最小支持度和最小可信度。　　对于云计算平台上的海量考试数据进行挖掘，主要目的之一就是希望能通过挖掘大量的考试信息发现试题之间隐藏的内在联系，这在功能上属于关联分析。例如，关联规则可以表示为“答对了题目3的考生中有80%的人也答对了题目9”。从这些规则可找出试题中题目之间的关联性，帮助教师分析学生知识掌握情况以及分析题目之间的互相影响性，以便帮助提高教学质量。　　Apriori算法的基本思想是找出所有的频繁项集，这些频繁项集出现的频繁性要大于等于预先定义的最小支持度，由找出的这些频繁项集产生同时满足最小支持度和最小可信度的强关联规则。　　3 云计算环境下Apriori算法的Map/Reduce模型化设计　　要在云计算环境下应用Apriori算法，要将算法按照Map/Reduce的编程模型并行化设计并执行，然后由主控程序控制算法应用云存储环境中的数据运行。主程序按照使用者指定的数据块大小将云存储中数据分成独立的N个数据块，并将这些数据块分发到云平台中各个空闲的计算节点去运行，在进行数据预处理后，Map进程对处理好的目标数据进行计算，得到局部的频繁候选项集，再由Reduce进程对Map过程产生的局部候选频繁项目集做归并处理，产生总体的全部候选项目集，然后按照给定的最小可信度和最小支持度找出全局的频繁候选项目集，得到有关的关联规则。　　云计算环境下的 Apriori 算法Map/Reduce化包括3个过程，首先是数据准备过程；其次是Map函数过程找到各个独立数据块的局部频繁项集；最后由Reduce过程通过归并处理接收Map过程得到的局部频繁项集，从中找出全局频繁项集，得到所需要的强关联规则。　　Map/Reduce 化后 Apriori 算法的执行步骤如下：　　（1）数据库中待处理数据首先要按照要求分