考生样本量对项目反应理论(IRT)等值稳定性的影响.pdfVIP

考生样本量对项目反应理论(IRT)等值稳定性的影响.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
考生样本量对项目反应理论(IRT)等值稳定性的影响.pdf

2011年第2期 考试研究 No.2,2011 总第25期 EXAMINATIONSRESEARCH GeneralNo.25 考生样本量对项 目反应理论 IRT 等值稳定性的影响 马洪超 [摘 要] 测验等值使得不同形式的考试能进行 比较,从而保证 了测验之间的 相对稳定性。基于IRT的分数等值是在估计出参数的基础上进行的参数转换,等值 结果的稳定性与考生样本量密不可分。本研究针对汉语水平考试 HSK 阅读分测 验,采用真实数据模拟共 同组锚测验设计,确定等值的参照标准,考察考生样本量的 变化对 IRT分数等值稳定性的影响。结果表明,考生样本量为2000左右时各种方案 的等值结果均比较稳定。考生样本量进一步增大时,等值误差不降反增。 [关键词] 分数等值;样本量 ;锚题 [中图分类号] G424.74 [文献标识码] A [文章编号] 1673—1654 2011 02—062—005 应测验的稳定性和有效性 。此外,IRT等值 一 、 问题的提出 研究将有助于教育监测和质量评估科学、有 效地展开,同时有利于我国建立和完善教育 等值的 目的是使两项测验分数可以互相 质量监测体系。 转换,形成稳定的评价标准。l1基于经典测 基于项 目反应理论的等值在随机等组、 验理论 cTI1 的等值数据处理方法只能实现 单组或者随机组设计情况下,只要模型拟合, 不同版本的测验分数之间的等值,满足 “试 估计 出项 目参数便实现了项 目参数和能力参 卷库”建设的需要,却无法完成在统一的量 数的等值 。在非等组锚测验设计下则需借助 尺上标定试题难度和区分度的任务,无法满 锚题参数实现能力和项 目参数的转换。在实 足大规模题库建设的需要。 项 目反应理论 际应用 中,等值设计需考虑考生样本的大小、 1RT 中的等值是将考核同一心理品质的多 考生的练习效应、考生情绪及作答动机、考试 个测验形式系统地作出项 目参数转换,从而 成本、考试的安全性和可操作性等因素 。相 使不同测验版本 中的项 目参数具有可 比性。 对其他几种设计而言,非等组锚测验设计常 IRT等值对资讯时代的测验有重要的作用, 被采用。 它关系着题库建设的科学性和计算机化 自适 测量误差无处不在,控制测量误差是等 作者简介 马洪超,博士,讲师,北京语言大学汉语速成学院。北京,100083。 一 62 — 考生样本量对项 目反应理论 IRT 等值稳定性的影响 值实践中的一项重要任务。在等值过程中等 面的研究。在 IRT等值 中,对可接受 的最适 值设计方案、参数转换方法、锚题编制、平滑 宜样本量也缺乏实证研究。 技术、前提假设、考生群体的选择等因素均可 鉴于此,本研究以汉语水平考试为对象, 导致等值系统误差。j在等值实践中,系统 通过比较不同等值方法在不同样本量下的等 误差已引起人们的重视,人们往往基于已有 值结果,讨论确定HSK阅读测验等值时可接 的研究采用某一特定的方法实现等值,却往 受的最适宜样本量,为题库建设中题 目参数 往忽略由于抽样不合理而导致的随机误差。 的标定、教学质量评估及监测提供参考依据。 在假定考生群体没有变化 的情况下,增大样 本量可以保证参数估计的稳定性和准确性, 二、实验设计 从而可以有效地降低随机误差,样本容量的 大小便成为影响随机误差最直接 的指标之 本研究基于 HSK实测数据 ,通过拆分试 一 。 对此 ,国内外研究均证实 了增加样本量 卷获得两份平行试卷 ,一份为标准卷 ,用 Y 可 以增大等值 的精确度,降低 随机 误 表示,另一份为待等值卷用 x表示,两卷中 差。 [] Kolen和 Brennan认为,在传统 均包含相同的锚题。因两份试卷的考生完全 等值和线性等值中通常每个测验需要400个 相同,在两测验形式中凡是以标准差为单位, 样本,等酉分位等值需要略多于 1500的样本 离均差相等的原始分数就被认定是等值的。 量 。 对于多维 IRT模型,研究者推荐使用 研究中将线性等值结果作为 IRT分数等值的 的样本量至少为2000 ;Yao和 Boughton发 参照标准。 现 3000的样本量是测验正确且参数估计稳 从 X卷 中随机抽取样本量为 350的样 定所必需的。¨o一上述研究表明不同形式的测 本作为最小样本,在此基础上抽取样本嚣分 验等值对样本量的要求也不一样,等值实践 别为500、1000、1500、2000、3000、5000、7000、 中需针对具体的测验形式选取适宜的样本 9000的样本作为待等值卷,等值方案采用三 量,而不是机械地采用某一研究结论。 种模型下的线性转换方法。 计算机化 自适应测验是未来测验发展的 本研究 在 对 参 数进 行 估 计 时采 用 趋势,该测验首先要解

文档评论(0)

39号书库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档