关于测验长度的研究.doc

下载文档

47
0
约6.71千字
约 8页
2017-08-09 发布于甘肃
举报
版权申诉
保障服务

关于测验长度的研究.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于测验长度的研究.doc

关于测验长度的研究马新芳 (作者简介：马新芳，北京语言大学人文学院，北京，100083 摘要：一般认为，测验长度和信度、效度呈正相关关系，但大量的研究结果表明，测验并非越长越好。测验长度的确定要考虑分界分数、信度、决策准确性等要求，根据题目的类型，采用不同的方法。在IRT理论下，长度的确定实际上是对最能反映被试能力水平的题目的选择。关键词：测验长度；效度；问卷；多项选择；构造性反应的题目引言测验长度(test length)是指构成一份测验的试题的数量(number of items)，即我们通常所说的“题量”。自从1910年SpearmanBrown信度公式(SBF)问世以来，测量学界一直持这样的观点：增加一个测验的长度就会提实质上，SBF的准确性是建立在严格的假设基础上的。它最基本的理论(content domain)，测验中的每一个题目都是SBF推断改变长度后的信度和效度系数。其效度可以表示为：其中是改变长度后的效度系数，是原测验的效度系数，k是新测验是原测验的信度系数。但需要注意的是长度和信度、效度之间并不是“投入产出”式的线性正比关0、1计分的客观性试题的数量要比采用分项等级计分的主观性试题的数量多。 (一) 关于测验长度的研究，国外早在20世纪60年代便已开始有人着手(M．Lord R．Novick，1968)，此后有关测验长度的文章不断见诸书刊。这些文IRT理论的优势，对单个题目进行考查，运用数在国内，测验长度的确定大都凭主观经验，少有实证性的分析和考查。(1999)针对HSK(初中等)的长度，进行了统计分析，提出(2002)运用概化理论，对普通话水平G研究和D研究设计，发现第一二部分试 (二)研究意义 1．理论意义无论是运用经典测验理论、概化理论，还是IRT理论，都要考虑测验长IRT理测验中题目的数量会影响信度，从而可能影响分数的效度(Messick，1989)。Lord(1980)也清楚地指出，影响题目参数估计质量的因素是测验长 2．现实意义由于开发测验或施测时的人力、物力有限，被试的心理、生理承受能力有对于标准参照测验而言，不同的长度会影响到及格分数的确定，从而影(high—stakes)测验更是如此。 (三)长度研究应考虑的因素 1．分界分数(cut—off score) 分界分数是指区分“真正掌握者”和“真正未掌握者”的领域分数，一般用80％，则对于领域分数在70％和90％之间的受试者，当其可接受的错误区分的误差为25％时，最短的测验长9，合格分数为8(根据米尔曼二项式模型)。分界分数改变，则测验长度 2．要求的信度水平 (谢小庆，l999)。该图表明信度随长度的不同而变化的情况：信度随长度的增加而提高，(1)通过变换Spearman—Brown信度计算公式原测验的信度，是原测验长度与新测验长度的比值，是新测验的信)，根据不同的信度要求计算长度。(2)根据内部一致性信度系数(算长度。(3)基于二Prob(x|∏)=cnx∏x(1一)n-x，所以可以根据具体的(millman)二项式法、不肯定区域(张厚粲、刘，1992)。(4)计算机模拟法。根据特定的计算机MAXVAL(Ulrich Giracy，1984)，TESTLEN(张厚粲、刘l992)。很明显，前两种方法适用于常模参照测验，而在概化理论中，可以通过G研究，找出影响信度的各种因素的方差分D研究设计，改变试题数量，计算相应的信度，从而确定所需的(杨志明、李雷，2002)。在IRT理论中，完全撇开了经典测验理论的平行测验信度观，刻画了稳(其中)，来指导测验的编制。不同种类的测验目标信息曲(即极小的误差)，这时它的信息曲线的目标状态就应是高，对于三参数Logistic模型来说，如果题库中各题目的参数都相同，且b并能使项目信息函数在处达到最大，这时，如果题目，。由此可知，当所越大，则测验越长；当区分度越大，测验越短，且所a2成反比。 3 Sculz ＆ Wan，Lin(2001)运用IRT理论研究了NC(number of correct)(16题)提供的被(30题)提供的被试能力信息。长度的缩短并没有他们还研究了长度和分界分数及区分误差的关系：(1)分界分数和长度(比如11)，即使长度增加(比如从21增加到25)，分界分数仍保持不变。而且，值得(2)区分误差和长度的关系。区分误差包括两种：错误地肯定和错误(16题)的每一类型的(30题)的。在一固定分界分数处，随着长度的增(single-level tests)，即只做出在某一水平或之上的分类(ator-above classification)，不考虑被试是否达到更高的等级。 (一)问卷(