- 8
- 0
- 约7.43千字
- 约 18页
- 2016-05-09 发布于湖北
- 举报
《数据挖掘技术》课程大作业
题 目 聚类分析在学生成绩管理系统中的应用
组 长 罗文彪
成 员 夏强、纪稳、吴旭冉
完成时间 二零一三年四月
综合评定成绩:
目 录
1. 研究目标 2
2. 分析方法与过程 3
2.1. 总体流程 3
2.2. 具体步骤 4
2.3. 结果分析 13
3. 结论 15
4. 参考文献 16
1.研究目标
在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。传统分析无非是得到均值、方差等一些简单的分析结果,往往还是基于教学本身。其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,为教学管理人员及学生做出相应的决策。而这些信息是无法从传统的学生成绩分析方法中获得,但可以通过从20世纪90年代中期兴起的数据挖掘技术中获得,从而找到影响学生学习成绩的真实原因,制定相应措施,提高教学效果。
目前在学校的本科教学数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯的记载了数据信息,却很难直观的从这些数据中发现其背后所隐藏的信息。然而事实上,无论是课程与课程之间,还是每门课程中的知识点之间,以及学生的成绩与课程的设置之间都存在着千丝万缕的联系。现阶段已有的数据并没有发挥其真正的价值,为了解决这一问题,可以利用数据挖掘中的一些相关技术对这些数据进行合理的利用和深层的分析,从而更好的指导教师在教学中的工作。
本文利用所学的数据挖掘技术,针对学生在已学的各主要学科的成绩构成(参考我校信管10级两个班级的成绩构成),同时,本文主要研究了数据挖掘在学生成绩分析中的应用以WEKA为工具采用K-means聚类方法对学生的成绩进行
2.1总体流程
本例主要包括以下步骤:
步骤一:原始数据的准备,从原始数据中选择部分数据作为挖掘数据;
步骤二:对这部分数据进行整理,和处理,并转换数据存储格式,方便进一步的数据处理;
步骤三:运用数据挖掘工具wake,对处理好的数据进行挖掘。
2.2具体步骤
步骤一:数据准备
本文在数据挖掘过程当中所使用的工具是WEKA,而WEKA所支持的数据格式有两种:ARFF文件和CSV文件。我们分析的原始数据是EXCEL文件,必需将此原始EXCEL数据文件转换为ARFF或CSV文件。转换方法为:在EXCEL中打开“学生成绩.xls”,选择菜单—另存为,在弹出的对话框中,文件名输入“xueshengchengji”,保存类型选择“CSV( 逗号分隔)”,保存,便可得到“xueshengchengji.csv”文件。其结果如图,所示:
打开WEKA软件的Exporler,点击Open file按钮,打开刚得到的“xueshengchengji.csv”文件,点击“Save”按钮,在弹出的对话框中,文件名输入“xueshnegchengji”,文件类型选择“Arff date files (*.arff)”,这样就得到的数据文件为“xueshengchengji.arff”。
步骤二:数据预处理
(1)聚类数据的预处理
现实世界中的数据库存在大量的噪声数据、空缺数据和不一致数据。基因表达数据也存在这种情况。有很多数据预处理技术可以去掉数据中的噪声,纠正不一致。为了提高涉及距离度量的聚类算法的精度和有效性,可以采用数据规范化的一些方法。
(2)数据清理
在实际数据库中往往存在着一些空缺值和噪音数据。对于空缺值,可以采用以下方法填写空缺值。
1)人工填写空缺值。这种方法对操作人员要求较高。并且,该方法很费时,当数据集很大时,该方法可能行不通。
2)使用该空缺值所在属性的平均值来填充。比如当进行样本聚类时,如果某个样本在某个指标值上的值空缺,可使用其它样本在该指标上的平均值来填充该空缺值。对于噪声数据,我们可以采用一些数据平滑技术来平滑数据。
3)数据规范化。如果数据库中的各属性的量纲和单位不同,在计算机对象间的距离之前,必须把不同的度量单位统一成相同的度量单位。由于属于不同概念范畴的属性具有不同的含义,把所有的属性转化成某个特定的度量单位是不可能的。常用的方法是把属性的值域映射为一个相同的区间(通常是[0,1]区间),这个过程成为属性的标准化或规范化。
K-means算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。因此,对于ARFF格式的原始数据“xueshengchengji.arff”,我们所做的预处理只是删除去属性“xuhao”。修改过程可以在写字板中更改,由于本文分析的数据是高校学生成绩,其属
您可能关注的文档
- 琚宾的公益设计:改造空间,改变生活介绍.doc
- 鞠老师人员测评理论复习111介绍.doc
- 局部应力修改介绍.doc
- 局放测试仪说明书介绍.doc
- 局放培训班4介绍.doc
- 局域网组建论文-小型局域网组建与配置介绍.doc
- 局域网组建实务课程标准介绍.doc
- 矩形天线书介绍.doc
- 矩阵变换器研究综述介绍.doc
- 矩阵乘法的并行化实验介绍.doc
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
最近下载
- 《溴代反应(生产溴化聚苯乙烯和四溴苯酐)副产溴化钠》-全文及说明.pdf VIP
- 物业内部质量监管方案.docx VIP
- 生产经理未来工作规划.pptx
- 澳大利亚入境卡(英文).pdf VIP
- 2025年绵阳东辰六年级小升初数学试题(二).doc VIP
- 石灰岩矿每年45万吨露天开采工程项目初步设计初步设计.pdf VIP
- 保洁服务质量保证措施.doc VIP
- 世纪科怡档案管理软件报表设计克隆表.pdf VIP
- SAE J514-3-2023 Metallic Connections for Fluid Power and General Use - Part 3: NPTF Pipe Adapters and NPSM Adapter Unions 流体动力和一般用途金属连接. 第3部分: NPTF 管适配器和 NPSM 适配器联接.pdf
- 竞聘上岗制度与实施细则.docx VIP
原创力文档

文档评论(0)