标准参照测验相关理论及评价指标综述.doc

下载文档 降价啦

59
0
约2.41千字
约 5页
2017-06-10 发布于福建
举报
版权申诉
保障服务

标准参照测验相关理论及评价指标综述.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

标准参照测验相关理论及评价指标综述

标准参照测验相关理论及评价指标综述　　摘要本文从国内近年来对于标准参照测验的一系列探索出发，对国内学者对于标准参照测验的相关理论和评价指标做的研究和陈述主要包括标准参照测验的评价指标如信效度，测验长度以及分数体系做了一个综合述评关键词标准参照测验评价指标分数体系中图分类号：O212 文献标识码：A 1标准参照测验的定义与作用 1.1标准参照测验的定义匹斯堡大学的Glaser首次提出标准参照测验，将测验分成标准参照测验和常模参照测验。后来许多学者将内容参照、领域参照等解释为标准参照标准参照测验又称准则参照测验。是一种精心编制的，在一定的行为领域上按照具体标准水平对测验结果作出直接解释的测验。是一种与以经典测验理论为基础的与常模参照测验相对的测验类型 1.2标准参照测验的作用了解个体在所规定的测量内容上的行为水平，其出发点是个体本身的绝对水平，而不是个体间的差异 2标准参照测验与常模参照测验的不同常模参照测验的分数反应了一个人在所属群体中的相对位置，常模代表了某一群体的真正水平，而标准参照测验的分数标志一个人能力或知识的绝对水平，不与其他人的分数比较，标准是希望达到的目标，对个体作出是否达标或达到什么程度的判断，有很大的人为性 3标准参照测验的评价指标 3.1标准参照测验的信度估计标准参照测验的信度估计方法很多，如克龙巴赫系数或CTT中的其它信度指标。标准参照测验一定程度上有别于常模参照测验，许多的学者对其信度估计做了很多的阐述和研究香港中文大学的杨志明教授用概化理论中的可靠性指数和（）公式，分别针对交叉设计和嵌套设计，就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异，展示了等级决策分数线决策信度的估计方法安徽师大的赵必华教授在《标准参照测验信度的估计方法及其验证》中列举了四种标准参照测验信度的估计方法，分别是斯旺明内森方法；惠恩方法；萨伯考维克方法；玛希尔方法 3.2标准参照测验的效度估计对标准参照测验的效度估计主要是内容效度的估计，主要从以下两方面入手：一是测题的正确性即指测题正确地反映测量目标所欲测量的知识、技能的程度。检验主要包括：测题的技术质量和测题与测量目标之间的一致性程度；二是测题的代表性，即要求组成标准参照测验的测题必须对测验领域总体有一定的代表性，从而使测验具有较高的内容效度。为了保证测题的代表性，标准参照测验编制中往往需要制订双向细目表；同时人们也提出了利用“重复实验”方法 3.3标准参照测验的长度在标准参照测验中，测验长度的决策不仅要结合特定的测验分界分数，而且要以降低错误肯定和错误拒绝的误差概率为原则。因此，标准参照测验长度的确定不是以常模参照测验中的斯皮尔曼布朗信度估计理论为基础，而是采用米尔曼的二项式概率模型法、威尔克森的不肯定区域法以及项目反应理论下的信息函数值法这些研究方法进行长度决策时的基本宗旨是：在符合测量误差标准要求的前提下，寻求最符合经济原则的测验长度和合格分数的优化组合方式，将测验对被试掌握程度的错误分类降低到最低限度针对标准参照测验长度的研究方法使用范围最广、理论基础最成熟是米尔曼的二项式概率模型、威尔克斯的不肯定区域模型和项目反应理论的拟合估计法。每种方法都有各自的适用条件，在具体情境中可以根据情况进行方法选择 4标准参照测验的分数体系标准参照测验分数的报告和解释还存在误区，许多考试仍沿用经典测验理论中的常模参照方法来对其分数报告和解释。目前国内有学者从国内外的重大考试入手，通过探讨分数体系的共同点以找到适合于标准参照测验的分数体系，为以后的一些标准参照测验的分数体系提供参考国内外有许多重大教育考试在使用标准参照测验，每套测验都会有一个相对成熟的分数体系。国内常见的标准参照测验有大学英语四六级考试，汉语水平考试HSK等；国外的比如美国研究生入学考试GRE，美国大学水平考试CLEP等等尽管上述一些国内外重大考试采用的分数体系比较完善。但目前使用的一些标准参照测验的分数体系仍存在大量的问题。首先分数的报告和解释过分依赖于标准样本的分布；其次不同的等值方法和等值设计将造成了不同的等值误差，且差异较大。但是样本容量限制等现实情况使得许多测验不得不采用一些误差较大的等值方案；再次，样本选择代表性受到了一定的限制，另外由各专家评定的标准试卷同样无法避免其主观性；最后，尽管采用了专家评定方法和样本分布共同来确定分界线，但是具体的分数线的确定因人的能力是连续变量而仍具有一定的主观性 5小结随着教育水平的不断提高，标准参照测