聚类算法在研究生论文质量分析中应用.docVIP

下载本文档

4
0
约4.32千字
约 9页
2018-09-18 发布于福建
举报
版权申诉

聚类算法在研究生论文质量分析中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类算法在研究生论文质量分析中应用

聚类算法在研究生论文质量分析中应用　　摘要：研究生学位论文是衡量研究生培养质量的重要指标。本文通过对影响研究生学位论文质量的相关属性进行分析处理，基于微软SSAS平台构建了研究生学位论文质量聚类分析挖掘模型，以福州大学研究生学位论文相关数据为实例进行聚类分析，找出影响学位论文质量的主要因素，为提高研究生学位论文质量提供参考依据。　　关键词：聚类算法；研究生；学位论文质量　　中图分类号：G40-057 文献标志码：A 文章编号：1673-8454（2017）19-0055-03 　　一、引言　　随着我国经济社会发展进入新常态，研究生教育改革发展也进入了一个新的历史时期，不断提升研究生教育质量是新时期研究生教育的核心任务。[1]2017年1月刘延东副总理在国务院学位委员会第三十三次会议上指出，质量是研究生教育的生命线，要加强质量保障体系建设，强化培养单位质量意识，抓好质量监控???确保研究生教育质量。研究生学位论文是研究生教育的总结性成果，是培养研究生科研能力、创新能力和实现培养目标的重要环节，也是衡量研究生教育水平和质量的重要指标。　　数据挖掘技术可以从大量的数据中发现隐藏的模式与知识，目前已成功应用在金融、医疗和电子商务等广泛的领域，近年来，在教育信息化、远程教育及在线学习系统等应用的带动下，教育数据挖掘开始受到越来越多的研究者的关注。[2]在大数据时代，对教育数据进行挖掘分析可以得到教育数据中的隐含信息，可以帮助发现和解决教育中的各类问题，如为管理人员提供辅助决策依据，帮助教师改进课程、提升教学效果以及提高学生的学习效率等。　　本文基于数据挖掘中的聚类算法，对福州大学2016学年毕业的1091位研究生的学位论文相关数据进行聚类分析与挖掘，找出影响学位论文质量的主要因素，为提高研究生学位论文质量提供参考依据。　　二、聚类分析技术　　聚类分析[3]是一种重要的数据分析方法，就是将数据对象分成类或簇的过程，使同一个簇中的对象之间具有较高的相似性，而不同簇中的对象具有较大的差异性。聚类分析数据挖掘过程可概括为数据准备、聚类分析及结果的解释和评估三部分。　　目前，聚类算法[4-5]大致分为层次聚类算法、划分式聚类算法、基于密度和网格的聚类算法以及其他聚类算法。在众多的聚类算法中，K均值聚类（K-means）是最经典、最方便快速的算法之一。　　K均值聚类算法的过程概述如下：　　（1）从数据集D中任意选择K个对象作为初始簇中心；　　（2）Repeat；　　（3）根据簇中对象的均值，将每个对象（再）指派到最相似的簇；　　（4）更新簇均值，即计算每个簇中对象的均值；　　（5）Until不再发生变化。　　三、聚类算法在研究生论文质量分析中的应用　　1.数据的选取及预处理　　福州大学的研究生教育管理信息系统记录了研究生从入学到毕业全过程的培养信息，为有效进行研究生论文数据聚类分析提供了基础。该系统数据库主要包括学生基本信息、导师信息、课程信息、成绩信息、奖学金信息、?_题情况、发表论文信息、论文送审成绩以及论文答辩成绩等数据表，但是这些数据表涉及很多属性，哪些字段属性被用于聚类算法，直接影响到最终的聚类效果。本文目标是对研究生论文质量进行聚类分析，经查阅相关论文，论文质量的主要影响因素包括研究生选拔、研究生自身素质、导师因素、科研条件、培养管理机制、学位论文的评审与答辩制度等。[6-7]因此，我们选取了学号、入学方式、本科毕业学校、导师类别、课程综合成绩、获奖情况、论文选题来源、发表论文情况、论文送审成绩、答辩成绩等字段作为挖掘的属性。　　为了让数据符合挖掘要求和提高挖掘算法的效率，对数据使用下列规则进行预处理。　　（1）学生基本信息处理，将属性入学方式分为推免生和统考生，将属性本科毕业学校分为重点院校和普通院校，将属性研究生导师类别分为博硕士生导师和硕士生导师。　　（2）课程学习成绩处理，每个研究生根据研究方向的不同可能选修不一样的课程，为了公平衡量研究生学习成绩，我校定义了研究生综合成绩计算公式，将根据公式计算的综合成绩进行分段：85以上为 “优”，75～85 为“良”，65～75 为“中”，65 以下为“差”。　　（3）奖学金信息处理，分为获得奖学金和未获奖学金并分别标记为是和否；论文选题来源信息处理，研究生学位论文选题可能来自导师不同级别的科研项目或自选课题，为便于聚类把论文选题来源分为国家级项目、省部级项目、其他项目和其他。　　（4）发表论文情况，根据研究生发表论文的刊物级别及数量分为4个等级，发表一类期刊论文或者2篇二类期刊以上论文的标记为3，发表1篇二类期刊论文的标记为2，发表三类期刊论文的标记为1，未发表论文的标记为0。　　（5）