- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计分方式和题组效应对题组测验等值影响模型比较视角
计分方式和题组效应对题组测验等值影响模型比较视角
摘 要 采用模拟研究的思路,用项目反应理论(IRT)同时校准的方法对题组测验的项目参数进行等值;同时基于模型比较的视角,考查题组效应大小以及项目计分方式对等值结果的影响。研究结果表明:(1)不同模型在题组测验等值上的效果因计分方式和题组效应的不同而不同;(2)当题组效应较低时(0.5以下),等级反应模型(GRM)在区分度参数和难度参数上的等值效果均好于等级反应题组模型(GRTM),且不受计分方式的影响;(3)当题组效应较高时(0.5以上),模型的等值效果因计分方式而异,等级反应模型(GRM)在0/1计分项目的等值误差最小,等级反应题组模型(GRTM)则在多级计分项目的等值误差最小。
关键词 等值;IRT题组模型;项目参数等值;混合计分
分类号 B841.7
DOI: 10.16842/j.cnki.issn2095-5588.2017.06.003
1 引言
?}组形式的测验凭借其独有的高效率性越来越多地出现在实际的测验当中,如大型国际测验项目PISA(Programme for International Student Assessment)等。同一题组内包含若干试题,考生可通过阅读文章或者题干等信息后回答一系列试题,这样,同以往考生阅读题干等信息只回答一道题目相比,大大提高了测验效率。当不同的测验或者题本施测于不同的群体时,出于分数比较的目的,我们需要对其进行等值。以往关于等值的研究表明,不同的数据类型使用不同的IRT模型进行拟合可以更好地减小等值误差(黎光明, 张敏强, 2012; 张泉慧, 黄慧英, 2016; 张敏强, 黎光明, 2008),同时更重要的是用IRT模型对数据进行拟合并进行等值时,需要满足IRT基本假设之一的局部独立性假设(local independence, LI),即在被试能力给定的情况下,某一被试在不同项目间的反应是相互独立的(Kolen Brennan, 1995)。在题组测验中,IRT模型的LI假设往往会因为同一题组内项目间的依赖性而被违背,此时我们采用考虑题组效应的等值方法可能更为精确。
近年来,国外研究者们对于题组测验以及题组测验的等值问题研究给予了越来越多的关注,不仅探查了题组效应的大小,而且对于题组测验等值的相关影响因素进行了多方面的研究。题组效应的大小通常采用题组效应参数的方差来表示,一些实证研究发现,一般测验的题组效应范围在0.5~2.0之间(Zhang, 2010),题组效应小于0.25是可以忽略不计的(Wang Wilson, 2005)。Lee, Kolen, Frisbie和Ankenmann(2001)对题组测验分别使用称名模型(Nominal Model , NM)、等级反应模型(Graded Response Model , GRM)和三参数logistic模型,采用IRT观察分数和IRT真分数等值方法进行研究,结果表明,NM和GRM模型等值效果更好。Zu和Liu(2010)采用模拟研究的方法,对同时含有独立项目(Discrete Items)和题组项目(PassageBased Items)的测验进行观察分数等值,研究发现,锚测验的题组比例越大、同一题组内题目数量越多、题组内局部依赖性越大,等值误差越大。He, Li, Wolfe和Mao(2012)采用锚题非等组(nonequivalent groups with anchor test design, NEAT)设计,对题组测验等值的模型选择进行了实证研究,结果发现,能够更好地解释题组内局部依赖性的模型,其等值误差要小于基础的IRT模型。Liu, Zu, Curley和Carey(2014)使用SAT的实证数据,考查了锚题的项目组成比例对等值精度的影响,结果发现,当锚题中含有更多的独立项目时,观察分数等值的精度更高。
目前,国内研究者关于题组模型本身及其应用的研究涉及较为广泛(詹沛达, 王文中, 王立君, 2013; 陈勃, 邓稳根, 李慧琦, 2015; 刘?h, 刘红云, 2014; 马文超, 边玉芳, 刘文, 2010),但关于题组测验的等值问题研究却较为薄弱,仅有吴锐, 丁树良和甘登文(2010)通过Monte Carlo方法模拟数据,基于两参数题组模型(2PTM)以及IRT特征曲线法进行等值研究。在实际的心理与教育测验中常常包含多级计分的建构题,仅有0/1计分的模拟情境已渐与实践脱轨,本研究的创新性在于模拟更符合实际测验情境的数据类型,并将题组模型应用于题组等值的研究中,考查当题目的计分方式不同、题组效应大小不同时,如何选择适宜的模型进行题组测验等值。为此,本研究拟通过比较一般IRT模型和IRT题
原创力文档


文档评论(0)