聚类分析在学生成绩管理系统中的应用(罗文彪、吴旭冉、夏强、纪稳).doc

聚类分析在学生成绩管理系统中的应用(罗文彪、吴旭冉、夏强、纪稳).doc

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析在学生成绩管理系统中的应用(罗文彪、吴旭冉、夏强、纪稳)

《数据挖掘技术》课程大作业 题 目 聚类分析在学生成绩管理系统中的应用 组 长 罗文彪 成 员 夏强、纪稳、吴旭冉 完成时间 二零一三年四月 综合评定成绩: 目 录 1. 研究目标 2 2. 分析方法与过程 3 2.1. 总体流程 3 2.2. 具体步骤 4 2.3. 结果分析 13 3. 结论 15 4. 参考文献 16 1.研究目标 在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。传统分析无非是得到均值、方差等一些简单的分析结果,往往还是基于教学本身。其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,为教学管理人员及学生做出相应的决策。而这些信息是无法从传统的学生成绩分析方法中获得,但可以通过从20世纪90年代中期兴起的数据挖掘技术中获得,从而找到影响学生学习成绩的真实原因,制定相应措施,提高教学效果。 目前在学校的本科教学数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯的记载了数据信息,却很难直观的从这些数据中发现其背后所隐藏的信息。然而事实上,无论是课程与课程之间,还是每门课程中的知识点之间,以及学生的成绩与课程的设置之间都存在着千丝万缕的联系。现阶段已有的数据并没有发挥其真正的价值,为了解决这一问题,可以利用数据挖掘中的一些相关技术对这些数据进行合理的利用和深层的分析,从而更好的指导教师在教学中的工作。 本文利用所学的数据挖掘技术,针对学生在已学的各主要学科的成绩构成(参考我校信管10级两个班级的成绩构成),同时,本文主要研究了数据挖掘当中的聚类技术在学生成绩分析中的应用,以WEKA为工具,采用K-means聚类方法对信息管理与信息系统专业学生的成绩进行分析处理,并对所得数据进行选择,预处理,数据挖掘以及对模式进行评估。运用聚类技术分析学生对哪个课程的强弱选择,从而为具有不同成绩特征的同学在课程选择以及以后如何开展学习提供一定的参考意见,同时对我校教学及管理工作也将具有重大的指导作用和现实意义。把这个理论研究思想推广开来,将数据挖掘技术应用在高校教学的各个方面,应该会得到大量的有现实意义的结果,从而制定相应的措施,提高教育教学质量。 2.分析方法与过程 2.1总体流程 本例主要包括以下步骤: 步骤一:原始数据的准备,从原始数据中选择部分数据作为挖掘数据; 步骤二:对这部分数据进行整理,和处理,并转换数据存储格式,方便进一步的数据处理; 步骤三:运用数据挖掘工具wake,对处理好的数据进行挖掘。 2.2具体步骤 步骤一:数据准备 本文在数据挖掘过程当中所使用的工具是WEKA,而WEKA所支持的数据格式有两种:ARFF文件和CSV文件。我们分析的原始数据是EXCEL文件,必需将此原始EXCEL数据文件转换为ARFF或CSV文件。转换方法为:在EXCEL中打开“学生成绩.xls”,选择菜单—另存为,在弹出的对话框中,文件名输入“xueshengchengji”,保存类型选择“CSV( 逗号分隔)”,保存,便可得到“xueshengchengji.csv”文件。其结果如图,所示: 打开WEKA软件的Exporler,点击Open file按钮,打开刚得到的“xueshengchengji.csv”文件,点击“Save”按钮,在弹出的对话框中,文件名输入“xueshnegchengji”,文件类型选择“Arff date files (*.arff)”,这样就得到的数据文件为“xueshengchengji.arff”。 步骤二:数据预处理 (1)聚类数据的预处理 现实世界中的数据库存在大量的噪声数据、空缺数据和不一致数据。基因表达数据也存在这种情况。有很多数据预处理技术可以去掉数据中的噪声,纠正不一致。为了提高涉及距离度量的聚类算法的精度和有效性,可以采用数据规范化的一些方法。 (2)数据清理 在实际数据库中往往存在着一些空缺值和噪音数据。对于空缺值,可以采用以下方法填写空缺值。 1)人工填写空缺值。这种方法对操作人员要求较高。并且,该方法很费时,当数据集很大时,该方法可能行不通。 2)使用该空缺值所在属性的平均值来填充。比如当进行样本聚类时,如果某个样本在某个指标值上的值空缺,可使用其它样本在该指标上的平均值来填充该空缺值。对于噪声数据,我们可以采用一些数据平滑技术来平滑数据。 3)数据规范化。如果数据库中的各属性的量纲和单位不同,在计算机对象间的距离之前,必须把不同的度量单位统一成相同的度量单位。由于属于不同概念范畴的属性具有不同的含义,把所有的属性转化成某个特定的度量单位是不可能的。常用的方法是把属性的值域映射

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档