考生样本量对项目反应理论（IRT）等值稳定性的影响.pdfVIP

下载本文档

73
0
约 5页
2018-03-29 发布于湖北
举报
版权申诉

考生样本量对项目反应理论（IRT）等值稳定性的影响.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

考生样本量对项目反应理论（IRT）等值稳定性的影响.pdf

2011年第2期考试研究 No．2，2011 总第25期 EXAMINATIONSRESEARCH GeneralNo．25 考生样本量对项目反应理论 IRT 等值稳定性的影响马洪超 [摘要] 测验等值使得不同形式的考试能进行比较，从而保证了测验之间的相对稳定性。基于IRT的分数等值是在估计出参数的基础上进行的参数转换，等值结果的稳定性与考生样本量密不可分。本研究针对汉语水平考试 HSK 阅读分测验，采用真实数据模拟共同组锚测验设计，确定等值的参照标准，考察考生样本量的变化对 IRT分数等值稳定性的影响。结果表明，考生样本量为2000左右时各种方案的等值结果均比较稳定。考生样本量进一步增大时，等值误差不降反增。 [关键词] 分数等值；样本量；锚题 [中图分类号] G424．74 [文献标识码] A [文章编号] 1673—1654 2011 02—062—005 应测验的稳定性和有效性。此外，IRT等值一、问题的提出研究将有助于教育监测和质量评估科学、有效地展开，同时有利于我国建立和完善教育等值的目的是使两项测验分数可以互相质量监测体系。转换，形成稳定的评价标准。l1基于经典测基于项目反应理论的等值在随机等组、验理论 cTI1 的等值数据处理方法只能实现单组或者随机组设计情况下，只要模型拟合，不同版本的测验分数之间的等值，满足 “试估计出项目参数便实现了项目参数和能力参卷库”建设的需要，却无法完成在统一的量数的等值。在非等组锚测验设计下则需借助尺上标定试题难度和区分度的任务，无法满锚题参数实现能力和项目参数的转换。在实足大规模题库建设的需要。项目反应理论际应用中，等值设计需考虑考生样本的大小、 1RT 中的等值是将考核同一心理品质的多考生的练习效应、考生情绪及作答动机、考试个测验形式系统地作出项目参数转换，从而成本、考试的安全性和可操作性等因素。相使不同测验版本中的项目参数具有可比性。对其他几种设计而言，非等组锚测验设计常 IRT等值对资讯时代的测验有重要的作用，被采用。它关系着题库建设的科学性和计算机化自适测量误差无处不在，控制测量误差是等作者简介马洪超，博士，讲师，北京语言大学汉语速成学院。北京，100083。一 62 — 考生样本量对项目反应理论 IRT 等值稳定性的影响值实践中的一项重要任务。在等值过程中等面的研究。在 IRT等值中，对可接受的最适值设计方案、参数转换方法、锚题编制、平滑宜样本量也缺乏实证研究。技术、前提假设、考生群体的选择等因素均可鉴于此，本研究以汉语水平考试为对象，导致等值系统误差。j在等值实践中，系统通过比较不同等值方法在不同样本量下的等误差已引起人们的重视，人们往往基于已有值结果，讨论确定HSK阅读测验等值时可接的研究采用某一特定的方法实现等值，却往受的最适宜样本量，为题库建设中题目参数往忽略由于抽样不合理而导致的随机误差。的标定、教学质量评估及监测提供参考依据。在假定考生群体没有变化的情况下，增大样本量可以保证参数估计的稳定性和准确性，二、实验设计从而可以有效地降低随机误差，样本容量的大小便成为影响随机误差最直接的指标之本研究基于 HSK实测数据，通过拆分试一。对此，国内外研究均证实了增加样本量卷获得两份平行试卷，一份为标准卷，用 Y 可以增大等值的精确度，降低随机误表示，另一份为待等值卷用 x表示，两卷中差。 [] Kolen和 Brennan认为，在传统均包含相同的锚题。因两份试卷的考生完全等值和线性等值中通常每个测验需要400个相同，在两测验形式中凡是以标准差为单位，样本，等酉分位等值需要略多于 1500的样本离均差相等的原始分数就被认定是等值的。量。对于多维 IRT模型，研究者推荐使用研究中将线性等值结果作为 IRT分数等值的的样本量至少为2000 ；Yao和 Boughton发参照标准。现 3000的样本量是测验正确且参数估计稳从 X卷中随机抽取样本量为 350的样定所必需的。¨o一上述研究表明不同形式的测本作为最小样本，在此基础上抽取样本嚣分验等值对样本量的要求也不一样，等值实践别为500、1000、1500、2000、3000、5000、7000、中需针对具体的测验形式选取适宜的样本 9000的样本作为待等值卷，等值方案采用三量，而不是机械地采用某一研究结论。种模型下的线性转换方法。计算机化自适应测验是未来测验发展的本研究在对参数进行估计时采用趋势，该测验首先要解