- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自适应考试的具体实现
自适应考试的具体实现
Implement of Adaptive Testing
张玉玲
华东师范大学教育信息技术系 200062
近年来,随着教育测量理论和计算机网络技术的发展,中国的教育考试系统也正在发生着悄悄的变化,由传统的基于经典测验理论的固定题目、同一试卷的考试向自适应考试的方向转轨。本文具体阐述了自适应考试的具体流程及算法实现。
关键词:考试 项目反应理论 自适应 题库
1 引言
当前考试的指导理论主要有两种:以真分数理论为代表的经典测试理论(CCT);项目反应理论(IRT—Items Response Theory)。
2 经典测试理论的局限
经典测试理论亦称真分数理论,它对测验分数的意义和性质所作的解释建立在三个基本假设之上:①测验的观察分数X,可看作真分数T和测验误差分数E的线性组合,即:X=T+E.②误差分数的数学期望为零。③任何两次测验所产生的误差相互独立。在这些假设基础上,经过了近百年的发展,经典测试理论建立了一系列题目分析的公式,如表示难度的p值,表示区分度的题目与测试相关系数,估计分数真值的标准误差及由此推算出来的信度公式等。
经典测试理论对建立试卷、考分转换与等值等均有一套较为完整的方法。但随着测验实践的深入,此理论暴露了难以克服的弱点:①题目难度、区分度等严重依赖于被试对象,即同一道题目,若考生平均水平较高,则求出的题目难度就偏大;反之,则偏小。②对被试的某项能力或特质水平的估计值,只有当所有被试使用的都是同一个或并行测验时才是可以比较的;而对于同一能力或特质的不同测验的测量效果则无法进行直接比较。③在应用方面,经典测验理论也表现出许多不足。如何克服经典测验理论的这些不足,项目反应理论正是在这种背景下出现的。
3 项目反应理论
项目反应理论是以受测者回答问题的情况,经题目特征函数的运算,推测受测者的能力。根据参数的不同,特征函数可分为单参数、双参数和三参数三种模式,公式如下:
单参数模式: (1)
双参数模式: (2)
三参数模式: (3)
其中:
D=1.702
: 受测者能力值
a:题目的区分度
b:题目的难度
c:题目的猜测系数
:能力为的人答对此题目的概率
根据特征函数可画出题目的特征曲线,图1为典型的三参数模式的特征曲线:
图1
从图1中可以看出:
(1)a参数,题目的区分度,即特征曲线的斜率,它的值越大说明题目对受测者的区分程度越高。
(2)b参数,题目的难度,即特征曲线在横坐标上的投影。
(3)c参数,题目的猜测系数,即特征曲线的截距。它的值越大,说明不论受测者能力高低,都容易猜对本道题目。
项目反应理论同经典测试理论相比,具有以下优点:
(1)题目参数估计更为准确。
(2)全面解决考试等值问题。
(3)定义了信息函数这一综合质量指标,作为更科学地挑选题目的标准。
(4)适合编制自适应考试系统。
4 自适应测验(CAT,Computerized Adaptive Test)
CAT是指在以IRT理论为基础建立的题库之上,不断地根据题目的各方面信息和受测者的答题情况估计受测者的能力,然后从题库中选取符合受测者能力的题目进行测试,直到达到预定的测试精度要求,即可结束考试。整个测试过程如图2所示。
图2
下面对CAT系统进行测试的各个环节加以详细描述。
4.1 建立题库
CAT题库的建立有以下几个步骤:
(1)选择模型,首先应选择适应的IRT模型,如常用的三参数logistic模型。在此模型的基础上上,建立题库中题目的规格标准。
(2)题目的开发,开发应按题库命题的规格标准进行,应注重不同知识内容与能力层次、不同难度和不同题型的结合,对开发的试题应组织审查,确保题目的质量。
(3)题目参数的确定,主要是对题目IRT各参数值的确定,一般有两种途径:一是经试测后统计分析,另一种是由专家进行评估后,再采用统计方法确定参数。
(4)题库的动态维护,基于CTT的题库在建库完成后,一般无法再进行题库的扩充,而基于IRT的题库却由于IRT理论具有参数不变性等优点,题库的扩充变的更为容易,只需安排一些连接题目与新题目相混合进行试测,就可以将新题目的参数值与旧题目的参数值统一到一张量表中来。
4.2 参数初始化
参数的初始化是指在受测者在进行测试之前,对受测者的能力值进行初始估计,一般有以下几种方法:
(1)选择中等难度的试题,即假定受测者的能力为中等,在题库中随机抽取难度为中等的题目,作为测试的开始点。
(2)根据历史记录确定受测者的初始能力值,受测者可能参加过测试,可以根据以前的测试记录决定此次的开始题目,或根据以前其他受测者的测试记录决定开始题目。
(3)受测者自行选择,由受测者自行决定自己的能力程度,选择测试起始题目。
4.3 能力估计
正确估计
文档评论(0)