基于IRT和ML的考试系统构建初探.docVIP

下载本文档

6
0
约3.51千字
约 8页
2018-11-02 发布于广东
举报
版权申诉

基于IRT和ML的考试系统构建初探.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于IRT和ML的考试系统构建初探.doc

基于IRT和XML的考试系统构建初探】无纸化考试系统依据测试理论，通过分析考生对试题项目的正确反应概率，评价考生的能力潜质。它提高了考试的客观性和公正性，但当前无纸化考试系统还存在着不足。大多数考试系统的测验理论模型依据经典测验理论（CTT）数学模型，而CTT假定的试卷真分数T与观测分数X存在线性关系X=T+E与实际不符，试题难度、区分度等的测量严重依赖于被试样本，被试测验分数依赖于试题参数等。研究探讨了基于项目反应理论（IRT）,构建无纸化考试系统的相关技术。应用IRT理论估计试题各项参数，并结合 XML试卷客观准确地评估学生的能力。经试验，在基于IRT 2试题项的考试系统下，考生平均测试试题项目数N 2试题项 2. 1 IRT参数估计项目反应理论数学模型的建立需要对函数模型所需参数进行准确估计，这些参数来自于对被试能力参数的估计和项目参数包括难度、区分度、猜测参数的估计。下面仅分析客观题项目的参数估计，主观题项目一般都属于多级评分项目，其参数估计比二级评分模型相对复杂［4］。 1）预估计各项目参数的初值由于经典测验理论CTT的项目统计量和项目反应理论 IRT的项目难度、区分度参数在一定条件下有近似对应关系，因而IRT通常用CTT预估计项目的难度、区分度，而项目猜测参数初值可根据猜测概率估计。项目难度b初值估计难度指试题的难易程度，用被试在该试题上的通过率或得分率来表达。对0、1两级记分的试题，其项目难度为： b=。b为难度，R为得分的人数，N为被试人数。对于K重选择题，被试有猜题答对的可能，鉴于因猜测因素使选择题被答对的影响，K重选择题难度的计算表迗式如公式(2)。项目区分度a初值估计其中，PH、PL分别为项目在高分组和低分组被试下的通过概率。项目猜测参数c估计对于选择题或是非题组成的测验，被试完全凭机遇答题的可能性是存在的。项目猜参数定义为被试完全凭机遇答对项目i的概率。对于K个选择项的选择题，其猜测参数计算表达式为：c=;对于是非题，其猜测参数为：c=0.5。被试能力参数e的初值探查被试能力参数一般通过测验后根据被试对项目的反应结果来测量被试的能力。能力参数初值的计算方法为： e=ln，式中R为测验中得分的测试题数，L为测验中总测试题数。 2)用估计出的能力参数值作为已知量再次估计项目参数的真值。如此循环，直至能力和项目参数的估计值稳定为止。写出N个被试对n个项目反应的联合分布似然函数在能力和项目参数未知的情况下，根据独立性假设，N 个被试对测验的n个项目反应的联合分布似然函数可表示为：解方程组由于LnL是L的严格单调递增函数，使LnL迗到最大的一组参数也是使似然函数L迗到最大的一组参数。要解出LnL 的各个参数值，只需使L n L对能力参数和项目参数的一阶偏导为0即可。对三参数逻辑斯蒂模型可得如下方程组：根据项目参数a、b、c、0的初值，使用N-R迭代算法，同时解这个四方程，当两次迭代的结果没有明显差别时，所估计出来的能力和项目参数趋于稳定时，迭代过程终止，从而估计出测验项目的参数值ai、bi、ci的和能力参数9 i 的值。 2.2信息函数信息函数(Information Function)描述在某能力水平上对测验或项目测量的有效性。IRT信息函数有项目信息函数(Item Information)和测验信息函数(Test Information) 两种。信息一般可定义为“不确定性的消除’’。若所获数据信息量大，则表示此数据对考查对象所作的推论更可靠、估计误差更小。IRT从信息论观点出发，将信息函数与被试能力估计的标准误相联系。测验信息函数1（e）定义为考生的能力估计值（Q ）的标准误。的平方的倒数，即I （ 9 ）标准误o越小，测验信息函数越大，考生能力估计的不确定性越小，估计结果越可靠。 2. 2. 1项目信息函数 IRT数学模型的参数估计依据来自于对组成测验的各个项目的分析。若将单个项目任何能力水平的信息量记为I （0，Ui）,则三参数Logistic模型项目信息函数定义如公项目信息函数的图像是一条钟形的项目信息曲线（Item Information Curve）。它有以下特征：区分度参数越大，项目信息函数的最大值越大，项目信息曲线越高耸，项目能力分布的狭窄区域能提供的信息量就越多，而在其他区域则提供的信息量就较少，因而对能力估计的价值就越大。在其他参数不变时，难度参数不影响项目信息函数的最大值，其增大或减小只会使项目信息曲线向右或向左平移，不影响项目在能力全域的总信息量。项目猜测参数ci越大，项目信息函数就越小；猜测参数不为0时，项目信息函数取得最大值时的能力值稍大于难度参