计算机自适应考试设计中误区.docVIP

下载本文档

2
0
约4.57千字
约 4页
2015-08-10 发布于安徽
举报
版权申诉

计算机自适应考试设计中误区.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机自适应考试设计中的误区张华华（作者简介：张华华，博士，天津市教育招生考试院特约研究员，美国德克萨斯大学奥斯汀分校计算机自适应考试(Computerized adaptive testinCAT)已成为美国(GRE)、商学院研究生入学考试(GMAT)、护士资格考试，以及新兵入伍考(ASVAB)等。CAT与传统纸笔考试的最大区别在于，前者是个别化的考(或几套)共同项目。由于针对考生能力Weiss(1982)所指出，与传统纸笔考试相比，CAT的主要优点在于使用较 CAT还具有许多优点，例如新颖的项目形式、方便和快捷的数据分CAT也存在目前尚未解决的问题。其中之一是CAT与纸笔考试的一致性。近年来美国常有这方面的报道，例如一些GRE机考成绩差的考生，当他们再参加GRE纸笔考试后却获得了较高的成绩。然而，ETS早已取消GRE纸笔考试，GRE—CAT已成了美国考生的惟一选择。据美国高等教育年鉴报道(Carlson，2000)：2000年ETS曾允许大约05%的GRE考生自愿免费重考，原因是他们的机考成绩不可信。尽管ETS拒绝对考分是否过高或过低作出评价，但笔者认为一定是这些考生的分数低得令人无法相信。机考成绩是由选题算法根据考生能力估计值而转换成的正整数。考生能力估计值的范围通常在4与+4之估计值接近或达到4，除了该考生能力极低外，笔者以为还有可能就是算法的不稳定性促使部分考生的估计值“发散”。这种现象如不加更正，将严重损害机考的声誉和可信度。目前CAT最常用的选题算法是Lord在20世纪70年代提出的极大项目信息法。GRE和GMAT都使用项目反应理论(IRT)的三参数Losistic模型。设是考生能力变量，对于随机抽取的考生具有能力者，答对第个项目的概率为是第项目的区分度，是它的难度，是猜测参数，D是常数17。项目信息函数的定义为 GRE机考采用极大似然估计法。设为考生答完第m题之后，通过极大似然估计法(MLE)估计得能力值。根据极大项目信息法(The Maximum item information method)，第m+1题的选取将先由计算机算出题库中所有项目在这点上的信息量，并选出第m+1题使得该题的信息量)达到最大值。该算法的理论依据出自统计中的大样本理论。即的估计误差方差是Fisher信息的倒数。在IRT中，Fisher information便是Tesinformation，，由于θ值未知，并已知收敛于，通常用。由的估计误差方差最小。事实上，极大信息法将选取区分度大的项目。然而这个理论根据出自大样本理论，而GRE单项考试一般只有三十几个题目，加上这些题目还必须满足内容和题型分配比例(Content balance)，大样本的假设往往不存在。那末美国高等教育年鉴报道的超低分现象是由何引起的呢Chang and Ying(2002)对此进行了理论推导，为了便于讨论，假设猜题参数都0，则第n步MLE和第n+1步MLE之间满足下列关系和是第+1题的区分度参数和难度参数，为项目反为信息函数与的一个点，Xn+1取值0或1。当接近时， (1)右边中括弧中的量近(1)右边第二项可以解释为估计值从第n步到+1步的“修正”。显然，在考试的初级阶段因较小，这一步修正的大小由决定。由于采用极大信息量的选题算法，在考试的初级阶段将选取题库中值最大的题。这时如果考生答错几题，算法将把考生的修正估计值向反方向“推”很远。由于单项考试的长度固定在30题左右，尽管有些考生后阶段发挥得不错，在他们爬回来之前，考试已结束了。 Hau和Chang(2001)指出，极大信息选题法在有许多附加(例如item exposure rate contr)的情况下乃是值递减法(descendina method)。即在考试一开始计算机将选取值最大的项目，以后将选择中Chang和Ying(2002)利用公式(1)进克服初始值不稳定性的有效方法是采用Chan和Ying(1999)a-值a-值小的项目。因为此时能力估计值很有可能不准确，根据公式(1) a-值小的项目不至于将考生能力值推太远，a-值亦应该逐步增加。而a-值最大的项目应放在考试的最后阶段使用。正如他们指出： “it shrinks weights at early stages，making it less likely to have extreme values in estimatin．It also inflates weights at final stages，counteracting the efect of the multiplier and making it more likely to adjust the final estimator of θ．”(Chang a