IRT分析程序NOTE与MULTILOG、PARSCALE参数估计性能比较.docVIP

下载本文档

9
0
约 9页
2017-05-13 发布于贵州
举报
版权申诉

IRT分析程序NOTE与MULTILOG、PARSCALE参数估计性能比较.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

IRT分析程序NOTE与MULTILOG、PARSCALE参数估计性能比较

IRT分析程序ANOTE与MULTILOG、PARSCALE 漆书青戴海琦丁树良罗照盛董圣鸿周骏漆书青，教授；戴海琦，硕士，教授；丁树良，硕士，教授；罗照盛，博士，副教授；董圣鸿，硕士，讲师；周骏，硕士，讲师；江西师范大学教育与心理统计测量研究开发中心，江西南昌330027摘要考察了自主开发的现代教育与心理测量通用分析程序(ANOTE)的IRT参数估计质量，与MULTILOG和PARSCALE进行了比较，大量Monte Car模拟研究表明：对难度等级为9以下时，三程序估计精度相近；难度级别1014时，MULTILOG不能处理，ANOTE与PARSCALE估计精度各有千秋；难度级别在15以上时，只有ANOTE才能处理当遇到同一试题两相邻难度级别很接近时，MULTlLOG估出值顺序可能逆转。关键词参数估计程序RMSD；ABSE 一、问题的提出国际测量学界有按项目反应理论(IRT)处理多级计分资料的分析程序，MULTILOG和PARSCALE。它们既能处理社会心理测5点、7点乃至更多级别的测评量表资料，又能处理参见两程序使用手册。但MULTILOG的10(即9个难度级别)，PARSCALE的最高等级数为15即14。在我国，心理测量中等级计分资料一般多在9点以下，而成就40％左右，主要部分是多级计分题即西方所称主观；而且，不少题型(如作文、分析论述、综合证明等)的满分值常在15乃至2030分以上。因此，MULTILOG和PARSCALE在我国教育测量中的使用ANOTE）”。它能处30的等级计分题资料。这对在我国推广IRT的研究与应用，当程序ANOTE包括参数估计、模型资料拟合检验、等值、信息函数计算Samejima双参数模型(GRM)，并把01计分题当做等级计MMLE／EM方法，而对能力参数采用Baes后验期望估计(EAPE)。其具体做法是应用项目参数估计中最后一轮EM循环中得到的的后验分布，这里y……yq为积分结点，求能力参数的Bayes后验期望估计。 (2)、(3)中为的后验分布的估计，yk为数值积分的求积结点，A(yk为相应的权，而式(4)中是GRM中运算特征曲线，其中项目参数均由EM算法估出，而能力参数由积分结点yk代替。程序ANOTE中参数估计模块是整个分析系统的基础而关键性的部分，Monte Carlo方法，设置修复能力指ANOTE参数估计的正确有效性，并跟国际通行程序MULTlLOG和PARSCALE作了比较，相当系统而认真地进行了本研究。、方法与设计按Monte Car法检验计算机程序估计参数 1．指定真参数值，本研究中一方面指定项目参数(即构建模拟试卷)，另(即设置被试群体)。采用Samejime双参数模型，N(0，1)，难度参数bN(0，1)，区分度参数a的对数lna～N(0，1)，N(0，1)表示标准正态分布。 2．模拟生成得分反应矩阵x；一般同一批真项目参数条件下模拟多批(如30个)。 3．使用拟考察与检验的参数估计程序，本研究中即使用ANOTE，MUL-TILOG，PARSCALE三个程序，根据反应矩阵x估出项目与被试参数。 4．求取参数估计值与真参数值的差，设计修复能力的检验统计指标，分析与比较这些指标值，以验证有关参数估计程序的估计性能。我们设计的修复能力检验统计指标有三：一个是RMSD，一个是ABSE，另一个是MEANE。例如，对于项目区分度参数a，式中，表示由第t批被试的得分阵x估计的第个项目的区分度，=1，2，…，mt=1，2，…，r．而aj表示第个项目的区分度的真值。设置三个度量指标的意义是：RMS是一个常用的表示参数估计程序对真值的修复能力的指标，其好处是在一定的条件下，可以讨论RMSD的分布或渐近分布；则可用其大小和符号来考察参数估计程序是否有系统的高估或低估的现象发生；而ABSE这个指标虽无上述优越性，但其绝对值平均对越轨值(outler)有稳健性(robust)，可说明估出值对真参数值的绝对平均偏差，若大，即修复程度差。相仿，我们可RMSD(b)，ABSEE(b)，MEANE(b)以及RMSD()，ABSE()昶MEANE E()。当然从数学上来看，必有 MEANE(a)≤ABSE(o) 而根据Cauchy-Schwarz不等式，必有 ABSE(≤RMSD(a)。对参数b、也有相类似的结论成立，即有： MEANE(·)≤ABSE(·)≤RMSD(·) 由于MULTILOG和PARSCALE这两个程序的DOS版本和Windows版本在估计精度上没有实质DOS版本作考察。实际考察的Windows版为MULTILOG703，PARSCALE41，DOS版为MULTLOG6.0，PARSCALE31。为考察在试题有不同计分等级个数、估计收敛为不同精度的条件下各参数估计程序的行