基于GitestIII大学新生英语分级考试试题分析.docVIP

  • 5
  • 0
  • 约4.64千字
  • 约 9页
  • 2018-05-25 发布于福建
  • 举报

基于GitestIII大学新生英语分级考试试题分析.doc

基于GitestIII大学新生英语分级考试试题分析

基于GitestIII大学新生英语分级考试试题分析   摘 要: 本文作者基于Gitest III,对一份旨在评价大学新生英语技能水平的英语分级考试试卷进行了分析研究。作者首先以试题的难易度数据、区分度数据等验证了试卷的信度,然后用相关矩阵及因素分析方法检验了试卷的结构效度,最后对整份试卷的题目进行了项目分析,并总结了一些题目存在的问题。   关键词: 大学新生英语分级考试 Gitest III软件 项目分析      1.引言   大学新生英语分级考试是我院为临床医学专业七年制新生制定的英语技能水平测试。测试的目的是衡量学生的英语技能水平,为后续的英语分级教学提供依据。考试试卷的设计、考试的实际实施、评分标准的统一与否对于能否公正客观地反映学生的能力都有影响。因此,我抽取2009级90名临床医学专业七年制新生的试题,采用广东外语外贸大学设计开发的Gitest III软件对该份分级考试试题的100道客观选择题(其中听力15题,阅读理解20题,词汇语法题40题,完形填空题25题)进行项目分析,包括平均分、难度、区分度、信度等各项数据和效度分析等,以检测试题的设计是否合理,是否能在保证信度和效度的基础上考查学生的英语语言知识和技能并针对发现的问题提出建议,希望能对以后的分级测试命题和设计有所帮助,从而提高测试质量。   2.理论依据   2.1信度   “测试的信度,指它的结果分数对受试者的表现而言的可靠程度……具体说来,就是代表分数与试题,及试题与受试者(test population)的关系”。[1]45为了保证测试的信度,我们应该更多地关注到测试的数量与质量、测试的实施与试卷的评阅。[2]首先在数量上,语言测试应该有足够的数量来保证测试点的覆盖及测试抽样。其次在质量上,考试结果的分数分布应该是正态分布,大多数在中间水平。至于评分的信度,应该保证评分员与评分员之间保持一致,每个评分员自身也要保持前后一致。因为该份分级测试全部题目均为客观选择题,评分信度不受人为因素影响,因而可以得到保证。   2.2效度   “语言测试的效度,亦称有效性,指测试所考的,是否就是所要考的,或者说,在多大程度上,是考了目的所要考的”。[1]49效度分为内在效度、外在效度、使用效度和超考试效度。其中,内在效度是指测试本身的效度,包括内容效度和结构效度。前者是指测试是否考了考试大纲规定要考的,后者指考试的原则理论的效度。结构效度是所有的各种效度之本,决定了整个考试的性质。[1]49-56因此,本文主要分析该份分级考试试题的结构效度。   2.3项目分析   项目分析指的是应用统计学得出的结果来描述测试项目的难度和区分度。项目难度以答对题目人数的百分比表示,而项目区分度则表示被测试者具备的所要测试能力的大小。项目分析的结果用以修正一次测试,通过对不合格项目的修改或删除可以增加测试的信度和效度。我所作的项目分析是根据李莜菊定下的标准进行的,[2]125答对率(facility value,p)、难易度(the difficulty level,pd)和区分度(discrmination index,R-Bis)都有使用。答对率是显示考试的总人数中答对某题的比例。一般来讲,答对率值应该在0到1的范围之间,理想值是0.5。难易度值的范围在1到25,理想值是13。值越小,题目就越容易。如果值达到9或更低,就说明84%的受试者答对了题目。如果值达到17或更高,说明只有16%的受试者答对。区分度是这个题目区分性能的量度,即这个题目正确鉴别不同受考者在所考目标方面的能力。区分度值的范围在-1到1。一道题目的区分度值达到0.3就算符合要求,0.4是理想值。如果低于0.3,那此题目就需要修改或者舍弃不用,而且这样的题目量要控制在总题数的5%以下。   3.结果与讨论   3.1信度分析   整份试题的信度分析结果如表1所示。试题的全部100道客观选择题的平均分为67.40,有67.4%的题目做对了,说明这是一个难度中等的测试。标准偏差是7.40,而预期的标准偏差应该是14.06,说明分数比较集中,分布比较窄。分数的分布呈负偏态,偏态值为-0.54,表示得分高于规定平均分的人数超过了50%,说明试题总的难度比理想难度低。而峰值为1.65,表示峰比理想的峰高尖,说明分数过分集中在中段。一般说,一个考试偏态值和峰值能控制在-1到1之内,便算其分数基本符合正态分布。[2]124因此该试题的分数没有符合正态分布。信度指标R11值为0.74,aValue值为0.56,未达到李筱菊要求的理想值0.9和0.8,[2]128说明整份试题的信度不高。   语言测试的结构效度可以用相关分析及因素分析来验证。根据李筱菊所定的标准,如果相关系数达到0.4,那这两个

文档评论(0)

1亿VIP精品文档

相关文档