- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于教育数据挖掘学习者聚类分析与研究
基于教育数据挖掘学习者聚类分析与研究
摘要:数据挖掘在教育领域的应用随着数据的增多变得极为重要,该文主要针对在线评测系统中学习者相关数据集进行分析与研究,构造多个学习者特征,并以此对学习者进行聚类分析,从而得出不同学习者之间的特点,并对每类学习者进行深入分析,挖掘出隐含信息。一方面教育者可以针对不同类别的学习者采取不同的教育策略,另一方面使学习者更好地了解自己,发现不足的原因。将挖掘到的知识应用到教育环境中,不仅完善了在线教育平台,同时也使学习者和教育者达到了双赢的目的。
关键词:教育数据挖掘;在线评测系统;学习者;特征;聚类分析
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)06-0154-03
1概述
随着开源教育平台的兴起,教育数据挖掘技术融入教学已成为一种趋势,将教育系统的数据通过数据挖掘技术转换为有用的知识,并将挖掘到的知识再次应用到教育环境中去,提供更多更客观的反馈信息,一方面使教育者能够更好地调整和优化教学策略、改进教学过程、完善课程开发,基于学习者的学习情况来实现教学内容组织、创新以及构建教学模式等;另一方面可以使学习者更好地了解自己,有助于自己更好的学习。
本文中主要研究XXX大学在线评测系统(Online Judge,以下简称OJ),此系统是学习者通过在线提交代码,系统即时检测代码的正确性并给出判定结果。OJ中,存储着学习者的相关数据,通过分析这些数据,更深入的了解学习者,以便针对不同类别学习者提供不同的教学方法。本文主要是通过分析学习者数据,建立特征,得出不同类别学习者的特点,使教学者有针对性做出策略。
2数据挖掘介绍
数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。
随着开源教育平台的兴起,平台上的数据分析变得异常重要,将数据挖掘应用在教育领域成为一种趋势。如通过研究大规模教育数据中,可以为教育者提供更多潜在的不易发现的信息,以解决某教育中存在的问题,或者来预测学习者所需要的服务。
3问题提出
学习者数据存储在数据库中,因此在选取数据时,可以直接从数据库中导出数据,然后在其中提取具有研究价值的完整的数据集。
如何更深入的了解学习者,挖掘出不同学习者之间的差异,以及如何找出需要进行考前预警的学习者,是本文研究的重点。
3.1山东某大学在线评测系统学习者群体的数据介绍
自2011年以来,注册用户的提升和题目的增加,使OJ系统的学习者数据集更加完备,便于研究和学习分析。
OJ系统中的学习者主要涉及计算机,软件,网络,物联网,电科,数字媒体,信息安全,数学等专业,学习者按时完成专业老师安排的作业和规定的考试,表1是五个年级学习者数据的汇总,表示学习者的对题目的提交情况。最终选取了2014级,2015级,2016级学习者数据。
3.2问题解决的角度
由于数据繁杂,各个年纪的学习者提交记录都存储在一个数据表中,学习者的分类仅仅依靠成绩是不够的,而且也是片面的,影响学习者做题的因素很多,所以对于学习者进行有效的分析至关重要,对于教学者也有很好的帮助,可以对于不同学习者采取不同的教育方式。
不同于以往仅仅按照成绩将学习者进行优良中差的分类,本文采取多个学习者特征,建立一个基于在线评测系统的学习者模型。克服了单一分类标准所得最终结果的片面化的弊端。
4学习者数据集的预处理
4.1数据集成
2011年以来,随着题目数量的增加,在教学方面,题目数据的涵盖的内容越丰富,越有利于学习者学习,从而才能更好地针对学习者的数据集进行分析。所以,本文选取2014级,2015级,2016级的学习者数据。
数据集成主要将很多数据的属性集合在一起,本文中主要将数据从数据库中导出,按照学号的特点,针对不同的年级,不同的专业,不同的班级,依次整理,下图是将2014级学习者的信息进行集成。
表2 2014级总提交记录
图中包括提交号,题号,用户,提交时间,用户IP,竞赛号,判题情况,代码长度,判题时间等,涵盖了学习者在本系统的所有属性。
4.2数据清理
数据清理试图填充缺失的值,光滑噪声并识别利群点,纠正图中?稻莸牟灰恢滦浴Hサ舨缓侠淼摹⒁斐5氖?据,比如只注册者、注册学号不合法、学习者补考数据、缺失数据等。
对于学习者数据中,一些重要的属性缺少属性值,对于本部分的空缺,可以使用数据清理技术来填充。填补缺失值补全主要有下面几个方法:
1)忽略缺失数据;
2)人工填写缺失值:此方式比较费时,数据量较小的情况下可以行得通;
3)使用
原创力文档


文档评论(0)