KMeans算法在计算机等级考试成绩分析中应用.docVIP

下载本文档

4
0
约3.04千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

KMeans算法在计算机等级考试成绩分析中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

KMeans算法在计算机等级考试成绩分析中应用

KMeans算法在计算机等级考试成绩分析中应用　　摘要：讨论了数据挖掘技术在计算机等级考试评分系统中的应用。利用聚类分析对考生的得分情况进行分析，得到了各类学生对考题的掌握情况。所得结论对提高考生的过级率以及教师后续教学工作的开展均具有一定的指导意义。　　关键词：数据挖掘；聚类分析；计算机等级考试；KMeans 　　中图分类号：TP301 文献标识码：A 文章编号2012）011001903 　　________________________________________ 　　基金项目：贵州省科学技术基金资助项目（黔科合J字LKZ[2011]22号）　　作者简介：曾旭（1981-），女，硕士，遵义医学院医学信息工程系讲师，研究方向为信息安全、密码学、数据挖掘；司马宇（1979-），男，硕士，遵义医学院网络技术中心讲师，研究方向为网络安全、信息管理系统。0 引言　　数据挖掘是从大量数据中发现有趣模式，其中数据可以存放在数据库、数据仓库或其它信息库中。这是一个年轻的跨学科领域，源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和许多应用领域，如商务、经济学和生物信息学。　　数据挖掘的类型很多，如总结规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、预测分析、趋势分析和偏差分析等。其中，聚类分析已经广泛应用于市场研究、模式识别、数据分析和图像处理等领域。　　1 聚类分析　　聚类是将数据集划分为若干组的过程，并使得同一个组内的数据对象具有较高的相似性，而不同组中的数据对象具有较低的相似性。聚类是一种无指导的学习过程，事先不知道样本类别，也不知道类别个数。　　1.1 数据结构　　大多数聚类算法采用数据矩阵和相异度矩阵作为数据结构。　　数据矩阵是一个对象—属性结构。它由n个对象组成，是利用p个属性来进行n个对象的描述。　　相异度矩阵是一个对象——对象结构。它存放所有n个对象两两之间所形成的差异性（相似性）。　　如果数据以数据矩阵的形式给出，则往往需将数据矩阵转换为相异度矩阵，相异度矩阵可用距离公式计算得到，相异度有时也称距离。　　1.2 数据类型　　聚类分析中常用的数据类型有区间标度变量、二元变量、标称型变量、序数型变量、比例标度变量和混合类型的变量。相异度矩阵的具体计算会因所使用的数据类型的不同而异。　　对数据进行标准化处理后，对象间的相似度和相异度是基于两个对象间的距离来计算的。常用的距离度量公式有欧几里得距离公式等。欧几里得距离公式：　　1.3 相关算法　　聚类算法主要可以划分为如下几类：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法。其中，基于划分的方法主要以KMeans算法较为著名。　　KMeans算法随机地选择k个对象，每个对象代表一个组的初始均值或者中心。对剩余的每个对象，根据其与各个组均值的距离，将它指派到最相似的组，然后计算每个组的新均值。这个过程不断重复，直到准则函数收敛。　　2 聚类算法对评分结果的分析　　将KMeans挖掘算法应用于遵义医学院计算机等级考试评分系统中，根据该校现有的考试数据可以获得一些聚类结果。现以2010级临床专业某班级40名学生的考试数据为例，采用KMeans挖掘算法进行选择题、Windows操作题、打字题、Word操作题、Excel操作题和网络操作题共6个属性间的聚类分析挖掘。具体数据整理成表1，共包含40条相关记录。由于篇幅关系，本文中只列出原表的基本结构和表中的部分数据。　　2.1 数据预处理　　为了更好地进行聚类分析，需对数据进行标准化，标准化过程遵循的原则是：将各个题型的实际得分数除以该题型的总分，最终得到的标准化值范围是[0，1]，标准化结果见表2。具体处理方法如下：　　2.2 聚类分析　　传统的KMeans算法采取随机选择初始聚类中心的原则，这使得不同的初始聚类中心会导致聚类结果的差异，使聚类结果不稳定。为了提高聚类结果的稳定性，根据学生成绩的分布情况，一般有优秀、良好、中等、不及格、较差5个等级，因此，在本文的KMeans算法中，我们设定聚类个数为5个，分别对应5个成绩等级的中心。具体划分如下：　　2.3 聚类结果分析　　从表3可知，第1类学生各类题型的评分情况均较为理想，得分率均超过了0.800 0；第2类学生在Excel操作题上得分率偏低，得分率范围是0～1，但是其它各类题型的得分率均超过0.733 3；第3类学生得分率的范围处于中间地段，但是也存在部分题型能够取得较高的分数；第4类学生Excel