现代测量理论观点下测验偏差分析探析.docVIP

下载本文档

2
0
约6.2千字
约 12页
2017-09-02 发布于福建
举报
版权申诉

现代测量理论观点下测验偏差分析探析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

现代测量理论观点下测验偏差分析探析

现代测量理论观点下测验偏差分析探析　我国是一个测验使用大国，广泛应用于教育考试、资格认证、医学诊断等各个领域，测量结果对被测者的生活、教育与职业决策等影响很大。所以，人们非常关注这些测量工具的质量。测验质量的一个重要方面就是公平性(Fairness)。美国教育研究协会、美国心理学会以及美国教育测量学会所公布的《教育与心理测量标准》[1]以及美国及工业与组织心理学会发布的《人事选拔与效度验证原则》中都有专章探讨测验公平问题[2]。后文将简称为《标准》和《原则》。在我国，《国家中长期教育改革和发展规划纲要》也强调考试招生制度改革“维护社会公平的原则”。可以看出，测验公平性是个备受各界关注的测量学问题。近年来，此领域的研究发展较快，而国内相关研究与实践中所使用的方法却并未做出相应变革，事实上，只有极少数国内考试项目与测验编制研究采用项目功能差异报告了其公平性方面的质量，几乎没有测验报告其预测偏差和等值偏差(后文介绍)。本文将结合最新研究进展，从测验偏差检测的各个方面入手，探讨用以维护测验公平的各类偏差评价技术。测验公平(Fairness)有多种定义，一般来讲，公平的测验应在测验的设计、开发、施测、计分、报告、解释等方面对所有受测者一致，以保证受测者的测验分数差异体现了所测构念(Construct)水平的差异，而非其他无关因素(Irrelevant Factors)所导致。因此，测验公平性与效度关系密切，甚至有研究者直接将测验公平定义为，在测验开发与使用的各个阶段对所有子群体而言具有相同的效度[3]。测验是否公平涉及价值判断，通过实证研究较为困难，测量学中操作方案是通过分析测验是否存在偏差(Bias)来检验测验的公平性。为保障测验公平，测验专家通过审查整个测试过程努力保证能力水平相同的被试得到相同的测验分数。但实际上，测验仍可能对特定性别、文化背景、民族、经济背景的被试群体更有利，此时认为测验存在偏差，这是一种测量过程中的系统误差。正如《标准》所指出，公平测验的特征之一就是无偏差，在任何情况下都应尽量使用无偏差的测验[1]。现代测量学认为，测验偏差表现为测验分析所使用的各种模型在不同人群中模型参数也存在差异。测量模型中，如项目反应理论(Item Response Theory，IRT)模型中题目的难度、区分度参数对不同子群体差异显著，则认为存在测量偏差；对预测模型，若回归方程的截矩、斜率对子群体差异显著，则认为存在预测偏差；在等值计算之中，若等值系数对子群体差异显著，则认为存在等值偏差。下面分别探讨此三类测验偏差评价技术。论文代写 1　测量偏差测量偏差(Measurement Bias)关注的是测验的心理计量特征(如题目难度、区分度、正确作答概率)是否存在群体间差异[2]，此时只涉及测验分数(或由IRT模型估计出的能力参数)与人口统计变量，而不涉及效标变量，所以有研究者称为测验偏差检验的内部方法(Internal Methods)[4]。若测验无测量偏差，则称测验具备测量不变性(Measurement Invariance)。可以通过项目功能差异(Differential Item Functioning，DIF)与多组验证性因素分析(Multi-Group Confirmative Factor Analysis)检验测验题目是否存在测量偏差。DIF分析通常根据人口统计变量将被试分成两组，一组为焦点组(Focus Group，F)，题目对其不利；另一组为参照组(Reference Group，R)，题目对其有利。可通过条件概率来理解DIF：上式中，theta;为匹配变量，G为分组变量，为题目j作答反应，1为正确，0为错误。条件概率可以根据实际数据选用不同的测量模型进行计算。若上式成立，表示被试能力水平为theta;的被试，无论是来自组F还是组R，其答对题目j的概率都相同，题目j无测量偏差，否则存在测量偏差。若两组被试在题目上的条件概率大小关系与theta;取值大小有关，称为非一致性DIF(non-uniform DIF)，否则称为一致性DIF(uniform DIF)。 DIF检验一般经过以下几个基本步骤。第一步，选择匹配变量。根据测验开发、质量分析所使用的测量学理论，匹配变量可以选择使用测验总分、或IRT模型估计出的潜在特质水平。第二步，检查匹配变量的信度。为保证检验结果的可靠性，匹配变量的信度应较高。对于测验总分，可使用alpha系数等指标检查测验分数的信度；对于潜在特质水平值，可检查其估计标准误。第三步，根据匹配变量，选择不同的检验方法，逐个题目进行检验。若以观察分数为匹配变量，可选择MH检验、Logistic回归、SIBTEST等方法。研究显示，对于一致性DIF，MH检验比Logisti