计算机自适应测验的选题策略.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

计算机自适应测验的选题策略

1cat的起源与现状

计算机化自适应测试(cat)是现代教育理论与心理学技术相结合的产物。这是在项目反应理论(irt)的指导下进行的测试形式。它的目标是为每个被试构建最佳的测试。即测试实施过程中,根据一个用于描述被试反应的IRT理论模型,选取与被试的估计能力水平相匹配的项目。通过排除控制难度与被试能力不适合的项目,CAT缩短了测试时间,提高了测量精度,并减少了因被试测试粗心、疲惫、沮丧或猜测所引起的各种测量误差。

由于CAT的这一显著特点,它在美国和欧洲的许多国家得到了广泛的研究与应用。许多大型测验都采用CAT形式。例如美国研究生入学考试(GraduateRecordExamination,GRE)、TOEFL和GMAT,军事服役职业能力倾向成套测验(ArmedServicesVocationalAptitudeBattery,ASVAB)及护士、医生资格考试(theNationalCouncilofStateBoardsofNursingandNationBoardofMedicalExaminers),美国大学新生分配学科的计算机化安置测验等。

CAT在我国也得到研究与应用。1987年,江西师范大学就编制了高中数学和英语水平计算机化自适应测验;1991年又完成了“县级党政干部一般知识面人机对话自适应考试系统”和“党务工作者专业知识自适应考试系统”及“中学英语水平自适应测试系统”的编制工作;1998年,与香港中文大学合作,采用“A分层选题策略”,编制了“小学生三、六年级数学水平计算机自适应测验”;目前正在编制“党政领导干部行为情景判断自适应测验”;一个网络版的CAT也正在开发当中。第四军医大学将CAT用于新兵征集等工作检测应征者的素质。

编制CAT需考虑选题策略、被试能力估计、终止规则。随着CAT使用出现了安全问题,如有人对ETS开发的TOFEL和GRE的CAT版本盗题,危及考试安全性和公平性,故20世纪90年代以来,CAT安全性日益受到重视,曝光控制成为设计和开发CAT的考虑重点。选题策略是CAT研究的一项重要内容,它的好坏直接关系到考试的信度、效度及考试的安全性。研究选题策略,以降低被试能力估计误差,减少高区分度项目调用次数并平衡项目曝光均匀性,是人们在CAT研究中不断探讨的问题。

建立在0-1二级评分模型基础上的CAT技术已很成熟,并被广泛用于实践中。然而,这种模型下的CAT考试存在一定的弊端,鼓励猜题和考试技巧也越来越受到质疑。人们业已开始选择新的考试方法,如用构答反应题、短文、实验、操作等具有多个分值的项目,全面深入、综合地测评被试的能力。事实也已证明,使用多级评分项目比使用0-1二级评分项目可以获取更多的被试信息。文献是发表在应用心理测量(APM)研究CAT特辑上的第一篇文章,作者Meijer和Nering在文中指出要对多级评分CAT予以更多关注;然而迄今为止,这方面研究的公开报导还很少。因此,为了实际测量的需要,也为了适应我国的考试现状,更为了提高考试质量,研究多级评分模型下的CAT已成为当前一个比较重要而又紧迫的任务。国内外已开展了一些等级评分模型(GradedResponseModel,GRM)下CAT的研究,如Koch和Dodd于1985年研究过分部评分模型(PartialCreditModel,PCM)的CAT,Muraki在1992年推广了拓广分部评分模型(GeneralizedPartialCreditModel,GPCM)。分部计分也日益受到研究者的重视,比如有人研究怎样给被试的部分知识(PartialKnowledge)计分。“其基本的逻辑是:那些在传统的多项选择测验上得到相同分数的受测者,他们可能对测题所拥有的知识并不一样多。”。由于GPCM模型中,每个项目都具多个步骤,前一步骤未完成就无法完成下一步骤,故GPCM模型适应于我国考试中较多使用的主观性试题或强调分步及步骤性很强的试题的分析,如数学题、物理题、化学题、计算机操作题;也有利于态度量表的编制与实测资料的处理。然而基于拓广分部评分模型下的CAT研究尚未见公开报导。

2不同的选择策略在cpcm下

2.1kmj

Masters于1982年用Rasch的0-1二级模型推演出了分部评分模型(PartialCreditModel,PCM)的公式。用两参数Logistic模型及Masters所用的运算特征函数(OperatingCharacteristicFunction,OCF)重新构造新的PCM模型,即考虑各项目的区分度不一定相同,因其基本原理还是PCM,故新模型称拓广分部评分模型。该模型由公式

Ρjk(θ)=exp(k∑v=1(θ-bj

文档评论(0)

xcwwwwws + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档