对2001年国家公务员录用考试试题的公平性分析-考试研究.doc

下载文档

3
0
约5.17千字
约 6页
2019-08-03 发布于天津
举报
版权申诉
保障服务

对2001年国家公务员录用考试试题的公平性分析-考试研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

对2001年国家公务员录用考试试题的公平性分析任杰谢小庆（作者简介：任杰，在读硕士，副研究员，北京语言文化大学汉语考试中心第四研究室主任。谢小庆，博士，研究员，北京语言文化大学汉语考试中心副主任，北京，l00083。）摘要：2001年国家公务员考试的试卷是由192个单选项题目和45个多选项题目构成。本研究运用分析项目功能性差异(DIF)的SIBTEST方法和MH方法对单选项题目进行分析，运用经过修改的SIBTEST方法对多选多的题目进行分析，并对造成题目明显不公平的原因进行了分析。结果显示，利用MH和SIBTEST两种方法同时进行分析，效果比较好。所有题目综合起来看，2001年国家公务员考试的试卷对于不同性别、地区和专业的考生基本是公平的。关键词：测验；考试；项目功能差异(DIF)；MH；SIBTEST；国家公务员考试一、引言受国家人事部委托，我们对2001年国家公务员考试试题进行了信度、效度分析。这里，仅介绍我们对试题，尤其是多选多试题进行公平性分析所使用的方法，并对试题产生的项目功能差异(Differential Item Functioning，简称DIF)原因进行了分析。 DIF关系到考试的公平性，是指题目在不同群体间表现出的、与测验目的无关的功能性差异。例如，某一含有足球知识的数学题，对于具有相同数学能力的两组被试，由于足球知识水平不同，因而影响他们对题目的正确反应。如果出题者只是想测试考生的数学能力，那么，该题目对于足球知识很少的考生，就是不公平的。这时，我们就说该题目存在项目功能差异，即有DIF。多选多题目是与单选项题目相对而言的。单选项题目的正确答案只有一个，得分不是O，就是1；而多选多题目的正确答案不止一个，得分也会随全部答对、部分答对或完全答不对而不同。对于单选项题目的DIF的检测，我们采用MH和SIBTEST两种方法。对于多选项题目的DIF的检测，我们采用修改后的SIBTEST方法。SIBTEST方法，也叫同时性项目偏差估计(Simultaneous Item Bias，简称SIB)，它适用于单选项题目分析，经过张华华等人的修改，形成了适用于多选项的题目分析的Poly-SIBTEST方法。[1] 二、理论介绍考查题目是否存在DIF，关键在于如何判定两组被试是否具有相同的能力，即确定匹配变量。理想的匹配变量应该是对测验希望测试的能力的一种有效、可信和无偏的测量，这种测量显然是不可能的。对于大部分DIF分析而言，适宜的匹配量是测验总分(包括测验的部分或全部题目)，即当两组被试的测验总分相同时，我们就说他们具有相同的能力。两组被试分别称为参照组(Reference group)和目标组(Focal group)，目标组通常是可能被不公平对待的群体，参照组通常是用做比较的对象。 (一)单选项题目的检测和分析方法 1．SIBTEST方法[1][2][3] 由Shealy和Stout提出的SIBTEST分析方法用潜在能力作为匹配变量，它用回归矫正(regression—based correction)方法来估计匹配分数。起初，对N道题目进行N轮分析，每一轮以一道题作为怀疑对象，其他N-1题作为匹配子集，将大于某一界限(例如，0.100由Dorans Holland，l993年推荐的)的题目，作上DIF显著的标记，这些题目就是被怀疑的；第二步，仅对没有DIF标记的题目进行分析，每一轮以一道题作为怀疑对象，其他题目作为匹配子集，对结果中仍没有DIF标记的题目再次进行分析，直到没有任何题目被怀疑；第三步，将在各次分析中一直没有被怀疑的题目作为最终的匹配变量，其他有DIF标记的题目作为被怀疑的子集，经过计算，所有0.100的题目就是最终被怀疑有DIF的题目。匹配题目的总分记为X，怀疑有DIF的题目的总分记为Y，k为某一匹配分数，n为匹配的题目总数。 DIF指标为： ① 是目标组在X=k时的通过率，和是对照组与目标组在X=k时Y的平均分。检验统计值为： ② 其中，是当匹配分数X=K时，g组(g=R或g=F，即参照组或目标组)被试在被怀疑有DIF的题目上得分的方差，NRK和NFK分别是参照组或目标组在匹配分数X=K时的人数。当两组被试具有几乎相同的能力分布，如果题目无DIF，B近似于N(0，1)的正态分布；而当两组被试能力分布不同时，估计值B具有较高的I型错误，为了减少这类错误，Shealy和Stout采用线形回归——K-R 20对值进行了矫正。 2．MH分析方法[4]