信息函数在标准参照测验中的应用研究-考试研究.docVIP

信息函数在标准参照测验中的应用研究-考试研究.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息函数在标准参照测验中的应用研究-考试研究

信息函数在标准参照测验中的应用研究 涂冬波江西师范大学教科院2001级硕士研究生,江西南昌,330027摘要本文主要从项目、测验、被试能力三方面来探讨信息函数在标准参照测验中的应用。研究结论表明:信息函数较经典测量理论能更精确地评价项目质量、测验质量及被试能力水平,因而对测验及学生能力水平的评价更科学,同时对测验的编制有更强的指导作用,值得推广。 关键词信息函数 最佳评分加权标准参照测验项目反应理论 一、问题的提出 (一)应用经典测量理论(CT)作项目分析、测验分析及被试能力分析的 如何评价一个测验及其项目的优劣,这是广大测验编制者和使用者所CTT中认为区分度高的项目就是好的项目,而当项目难度适CTT一般挑选难度适中、区分度高的项目。而在CTT中难度与区分度的求取是彼此独立的。虽然它也承认这两个度是彼此度和区分度等各方面作用的、统一的综合指标。另外,CTT中的测量误差是一个笼统的概念,它是针对所有被试而言。它不能反应测验对不同能力水平被试的测量误差的不同,且它的求取公式(SE=S(1- rxx)0.5)与项目难度和区分度的取值并无直接关系。再者,CTT中答对一道难题得l分与答对一道容易题得1分所表达的能力水平是一致的。而实际上,答对难题所反应出的能力水平明显高于答对易题所反应的能力水平,但CTT并不能如实反应这种情况。这些问题一直都是CTT中存在的主要缺陷。 (二)项目反应理论(IRT)中信息函数(Infomation Function)的提出 为了克服CTT中的上述缺陷,项目反应理论提出了信息函数概念,它包括测验信息函数和项目信息函数。根据定义,测验信息函数I()=1/SE()2。它是测量标准误(SE()的倒数。这表明,一个测验的信息函数值越大,那么测验对被试相应的能力水平所做估计的误差越小。可以证明:I()=∑I i(θ)=∑Piˊ(θ)2/P)[1-Pi (θ)][2],其中I()是测验信息函数I i(θ)是测验项目i的信息函数,P)是一个包含项目参数和被试参数的反应函数,P)是P)的一阶导数。它是一个项目参数和被试能力综合作用的函数,它的求取不仅考虑了项目参数间的关系,而且考虑了项目参数与被试能力间的关系,是一个关于项目质量的、包含难度和区分度等各方面作用的、统一的综合指标,这是CTT理论所不具有的优越性。上式表明各个测验项目的信息函数对整个测验的信息函数的贡献是独立的。一个项目的信息量越大,则对整个测验的贡献越大;反之,一个项目献越小。因而用测验项目信息函数的大小来衡量项目的优劣显然是合理的。 由于信息函数是针对特定能力的函数,因此在标准参照测验中,可根据划界分数点上对应的能力的信息函数值来评价项目质量及整个测验的质量。当划界分数点上的某项目或测验的信息量越大,则该项目或测验在划界分数点上的测量误差越小,区分能力越强,即该项目或测验的质量越好。洛德(Lord)和伯恩鲍姆(Birnbaum)的研究提出,测验总分信息函数求法如下: 本研究以2002年7月份高等教育自学考试全国统一命题考试高等数学(一)试卷为对象,从某省随机抽取了633名被试(即作答试卷)。本试卷由五大题(共50个小题)构成,列表如下: (二)分析工具 采用测量软件——“现代心理与教育测量通用分析系统”(简记为ANOTE)进行分析。选取Logistic双参数多级计分模型。本试卷的项目容量及抽取的被试容量符合:“胡林(Hulin)、李沙克(Lissak)和德拉斯哥(Drasgow)1982年建议用于双参数模型就需要至少30个项目和500个被试”(P136)。参数估计采用EM算法。 (三)试卷单维性检验 用SPSSl0.0统计软件包进行因素分析(Factor Ananlysis),按特征根的值(Eigenvalue)大于l来抽取因子,共得l5个因子,每个因子的特征根的值及其碎石图(Scree plot)如下: 第1特征值与第2特征值的比值750/195=3.85,大于3,接近4,按汉普尔顿(Hambleton,RK.)的标准(P148-Pl68),可认为该测验符合单维性假设。 三、研究结果与分析 (一)测验整体质量分析 一般认为当测验的信息量达到25时,即测量误差SE()=1/I()0.5=1/(25)0.2,测验质量良好;信息量为l625时,测验有待改进;低于16,测验很差(P186)。作为一种判断被试合格与不合格的标准参照测验,我们对能力低的被试及能力高的被试并不感兴趣,对它们估计的精确度我们也不感兴趣,而感兴趣的是对介于合格与不合格的被试能力估计的精确度,也就是要在划界分数点(及格点或合格点)及其附近有精确的估计及高区分的能力,而这些都反映在测验在划界分数点的信息量。因此可根据测验在划界分数点上的信息量来评价目标参照测验。 从下图测验信息函数曲线图可看出

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档