数据挖掘中描述性数据汇总技术在中小学教学质量分析中的应用.docVIP

  • 6
  • 0
  • 约6.86千字
  • 约 11页
  • 2017-07-08 发布于北京
  • 举报

数据挖掘中描述性数据汇总技术在中小学教学质量分析中的应用.doc

数据挖掘中描述性数据汇总技术在中小学教学质量分析中的应用.doc

数据挖掘中描述性数据汇总技术在中小学教学质量分析中的应用   摘 要:本文重点阐述了在基于学科考试的中小学教学质量分析过程中,如何利用数据挖掘过程中的描述性数据汇总技术,对考试分数实施汇总分析,展现考试分数的数据特征,识别考试分数中的噪声数据,进而为有效开展学科教学质量的测评分析提供科学依据。   关键词:教学质量分析;数据挖掘;数据预处理;描述性数据汇总   中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2017)07-0065-04   一、引言   为了全面提高中小学学科教学质量,有效地指导学校开展学科教学活动,区(县)基础教育管理部门往往需要通过开展区域性的学科统考,并对考试成绩实施全样本数据统计分析,从中获取基于不同层面的学科教学质量的反馈信息,并据此对区域?妊?校的学科教学实施有效的监测和指导。因此,构建以成绩统计分析为基础的中小学教学质量分析系统,成了区(县)基础教育管理部门较为关注的一项信息化建设工作。   然而,对于教学质量分析系统来讲,其上层应用特色应体现在,能够针对区内学校的学科教学质量及学生学业发展水平,为区教育管理部门提供全面、准确、综合的评估分析报告。进而为区教育管理部门,对全区学校的学科教学质量实施有效监控,提供科学的辅助决策依据。但是,要达到上述之目的,构建的教育质量分析系统就必须具备能够分析、呈现考试成绩的总体数据特征,以及辨识、去除隐藏于考试成绩中的噪声数据的功能。而这些功能,正是对数据挖掘在预处理过程中所利用的描述性汇总技术的具体实现。   二、数据挖掘相关技术   1.数据挖掘   数据挖掘(DM,Data Mining)就是从常态生成的、带有噪声的、大容量的真实业务数据中,寻找并获取隐藏其内的新的知识和信息的过程。这个过程对驻留在数据库中的已有的大量数据,实施了抽取、转换、分析及模型化处理,并最终为实际业务的开展生成提供了具有辅助决策支持作用的关键性数据。数据挖掘的过程,有效地实现了对原有业务数据的进一步的深度应用。数据挖掘经常被称为另一个常用的术语:数据库中的知识发现(KDD,Knowledge Discovery in Databases)。通常知识发现的过程由以下步骤组成:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。   2.数据预处理   由于真实的业务数据存在着缺陷,带有噪声且不甚完整。如果对这类品质不高的数据急于实施数据挖掘,必然会影响最终的数据挖掘结果。然而,通过数据预处理则可以有效地改善数据的质量,以使后续实施的数据挖掘过程,能够在性能和精度上得到尽可能大地提高。利用数据预处理技术可以先期检测到各类异常数据,从而为调整改善数据质量和规范约束待分析数据,创造了有利条件。数据预处理为最后获得高质量的知识发现,提供了重要的基础保障。由此可以看到,数据预处理的重要作用体现在,它为改善现实数据的质量和获取高质量的数据挖掘结果,奠定必要的基础。所以,数据预处理是知识发现过程中不可或缺的重要环节,它由数据清理、数据集成、数据变换和数据规约等几个步骤构成。   3.描述性数据汇总   全面了解数据的整体特征,是成功实施数据预处理的必要前提。那么如何才能准确有效地获取数据的整体特征,并充分展示出数据集的集中趋势和离散趋势呢?对这个问题的回答是:必须利用描述性数据汇总技术。描述性数据汇总技术主要是基于一批描述性统计度量,对数据实施计算分析,识别出数据的固有特性,暴露出潜藏在数据中的噪声点或离群点。这批统计度量由两类组成,其中一类是用于描述数据集中趋势的度量:中位数(median)、众数(mode)和平均值(mean)。而另一类是用于描述数据离散趋势的度量:标准差(σ)、四分位数(quartiles)和四分位极差(IQR)。   三、考试分数的描述性数据汇总分析   1.度量考试分数的集中趋势特征   在描述性数据汇总中,用以考察度量数据集中趋势的方法常见的有三种,它们分别是分布式度量(distributive measure)、代数度量(algebraic measure)和整体度量(holistic measure)。其中,分布式度量是指,把数据集分割成更小的数据子集,然后计算出每个子集的度量值,最后将计算结果进行合并以得到整个数据集度量值的度量。代数度量是指,由包含了一个或多个分布式度量的代数函数所计算的度量。而整体度量是指,对整个数据集计算的度量。   在中小学教学质量分析中,当导入一次考试的所有学生的原始考分后,是通过计算平均分、众数和中位数这三个集中量数来获取这批原始考分的集中趋势信息的。然而,平均分、众数和中位数正是属于描述性数据汇总技术中的集中趋势度量。其中,平均数属于代数度量,因为它可以通过

文档评论(0)

1亿VIP精品文档

相关文档