- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于IRT和ML的考试系统构建初探.doc
基于IRT和XML的考试系统构建初探
】无纸化考试系统依据测试理论,通过分析 考生对试题项目的正确反应概率,评价考生的能力潜质。它 提高了考试的客观性和公正性,但当前无纸化考试系统还存 在着不足。大多数考试系统的测验理论模型依据经典测验理 论(CTT)数学模型,而CTT假定的试卷真分数T与观测分 数X存在线性关系X=T+E与实际不符,试题难度、区分度等 的测量严重依赖于被试样本,被试测验分数依赖于试题参数 等。研究探讨了基于项目反应理论(IRT),构建无纸化考试 系统的相关技术。应用IRT理论估计试题各项参数,并结合 XML试卷客观准确地评估学生的能力。经试验,在基于IRT
2试题项的考试系统下,考生平均测试试题项目数N
2试题项
2. 1 IRT参数估计
项目反应理论数学模型的建立需要对函数模型所需参 数进行准确估计,这些参数来自于对被试能力参数的估计和 项目参数包括难度、区分度、猜测参数的估计。下面仅分析 客观题项目的参数估计,主观题项目一般都属于多级评分项 目,其参数估计比二级评分模型相对复杂[4]。
1)预估计各项目参数的初值
由于经典测验理论CTT的项目统计量和项目反应理论
IRT的项目难度、区分度参数在一定条件下有近似对应关系, 因而IRT通常用CTT预估计项目的难度、区分度,而项目猜 测参数初值可根据猜测概率估计。
项目难度b初值估计
难度指试题的难易程度,用被试在该试题上的通过率或 得分率来表达。对0、1两级记分的试题,其项目难度为: b=。b为难度,R为得分的人数,N为被试人数。对于K重选 择题,被试有猜题答对的可能,鉴于因猜测因素使选择题被 答对的影响,K重选择题难度的计算表迗式如公式(2)。
项目区分度a初值估计
其中,PH、PL分别为项目在高分组和低分组被试下的通 过概率。
项目猜测参数c估计
对于选择题或是非题组成的测验,被试完全凭机遇答题 的可能性是存在的。项目猜参数定义为被试完全凭机遇答对 项目i的概率。对于K个选择项的选择题,其猜测参数计算 表达式为:c=;对于是非题,其猜测参数为:c=0.5。
被试能力参数e的初值探查
被试能力参数一般通过测验后根据被试对项目的反应 结果来测量被试的能力。能力参数初值的计算方法为: e=ln,式中R为测验中得分的测试题数,L为测验中总测试 题数。
2)用估计出的能力参数值作为已知量再次估计项目参 数的真值。如此循环,直至能力和项目参数的估计值稳定为 止。
写出N个被试对n个项目反应的联合分布似然函 数
在能力和项目参数未知的情况下,根据独立性假设,N 个被试对测验的n个项目反应的联合分布似然函数可表示 为:
解方程组
由于LnL是L的严格单调递增函数,使LnL迗到最大的 一组参数也是使似然函数L迗到最大的一组参数。要解出LnL 的各个参数值,只需使L n L对能力参数和项目参数的一阶偏 导为0即可。对三参数逻辑斯蒂模型可得如下方程组:
根据项目参数a、b、c、0的初值,使用N-R迭代算法, 同时解这个四方程,当两次迭代的结果没有明显差别时,所 估计出来的能力和项目参数趋于稳定时,迭代过程终止,从 而估计出测验项目的参数值ai、bi、ci的和能力参数9 i 的值。
2.2信息函数
信息函数(Information Function)描述在某能力水平 上对测验或项目测量的有效性。IRT信息函数有项目信息函 数(Item Information)和测验信息函数(Test Information) 两种。信息一般可定义为“不确定性的消除’’。若所获数据 信息量大,则表示此数据对考查对象所作的推论更可靠、估 计误差更小。IRT从信息论观点出发,将信息函数与被试能 力估计的标准误相联系。测验信息函数1(e)定义为考生 的能力估计值(Q )的标准误。的平方的倒数,即I ( 9 )
标准误o越小,测验信息函数越大,考生能力估计的不
确定性越小,估计结果越可靠。
2. 2. 1项目信息函数
IRT数学模型的参数估计依据来自于对组成测验的各个 项目的分析。若将单个项目任何能力水平的信息量记为I (0,Ui),则三参数Logistic模型项目信息函数定义如公
项目信息函数的图像是一条钟形的项目信息曲线(Item
Information Curve)。它有以下特征:区分度参数越大,项 目信息函数的最大值越大,项目信息曲线越高耸,项目能力 分布的狭窄区域能提供的信息量就越多,而在其他区域则提 供的信息量就较少,因而对能力估计的价值就越大。在其他 参数不变时,难度参数不影响项目信息函数的最大值,其增 大或减小只会使项目信息曲线向右或向左平移,不影响项目 在能力全域的总信息量。项目猜测参数ci越大,项目信息 函数就越小;猜测参数不为0时,项目信息函数取得最大值 时的能力值稍大于难度参
原创力文档


文档评论(0)