- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多评分者多任务情境下评分者信度模型拟合研究
多评分者多任务情境下评分者信度模型拟合研究
摘要:此研究以网上阅卷环境下多个评分者同时评阅翻译和作文为例,建立多个评分者完成多个任务的结构方程模型,对数据进行拟合,实现评分者信度的量化分析。通过五个结构方程模型比较,选择拟合效果较好的相关任务相关特性模型,计算多评分者多任务的评分者信度,并对同一评分者完成不同任务时评分者信度和同一评分任务下不同评分者的评分信度进行比较,实现对评分效果的评价,从而对评分者的选拔和有针对性培训提供科学支持。
关键词:多评分者多任务;拟合优度;相关任务相关特性模型;评分者信度
中图分类号:B84 文献标识码:A 文章编号:1671―6124(201l)06―0107―04
一、前言
主观评分的应用越来越广泛,不但要求主观评分能够适用于不同的评分情景,而且希望能够对评分结果进行比较全面的分析。特别是在大规模考试中,考虑到阅卷成本、组织便利等因素,组织者一般选取多个评分者对多个题目进行评判。人事选拔中,多个考官要面对每一个考生对他们的表达能力、协调能力等多个方面打分。而对评分的科学性和公正性要求越来越高,这就需要在多评分者多任务情境下,对评分者的评分效果进行比较,以对评分者有针对性的选拔和培训。
在评分者信度的衡量中,比较常用的是kappa系数、肯德尔和谐系数、概化理论等方法来估计测量中的评分者信度。Cohen的kappa法考虑机遇水平,通过真实一致概率和机遇概率的比较表示一致性,后又衍生出很多种变式;肯德尔和谐系数是计算多个等级变量相关程度的一种相关量,可以对多个评分者的评分信度进行计算。但若使用该方法需人为地对连续型评分数据进行分组,可能会损失掉部分评分信息。而且,虽然这两类系数法在评价评分者一致性时具有简单明了、通俗易懂的特点,但均只能解决对一个测验任务的评分一致程度的评价,因而为主观评分测试提供的信息很少,不适用于比较复杂的测量情境,不利于对主观评分者信度进行深入的分析研究。概化理论等虽然能够引入较多测量情境的结构信息,但是也只能处理多个评分者单个测量任务的情境,不适于多个??分者多个测量任务的要求。
本研究基于某全国英语统一考试网上阅卷环境,随机选取20位评分者对作文和英译汉进行评阅的实证数据,针对多评分者多任务情境,采用结构方程建模方法建立相关任务相关特性模型,实现了对这一情境下评分者信度进行量化研究。从统计模型分析角度,为评价评分者的阅卷质量、甄别和选择信度较高的评分者提供了科学依据,该结论和方法具有一定的参考和推广价值。
二、研究方法
1.实证数据
本研究从参加某全国统一考试英语科目的作文和翻译主观题阅卷的教师中随机选出20位评分者,同时在所评的4万名考生的主观题试卷中,随机选出200个考生的作文、翻译试卷。在整个评阅过程中,通过适当改变阅卷程序,使选出的评分者在正常的阅卷情境下来分别评阅被选出考生的两份试卷,从而得到所研究的数据。假设这些评分者的评分的实际数据真实反应了评分者在评分过程中的行为表现。评分者独立评分,互不干扰,也不考虑阅卷环境、被试答题整洁度等外界因素对评分者评分的影响。
2.数据分析方法探索
本研究利用Mplus 4.02来实现潜变量模型的构建与评分数据的拟合。先根据不同的研究假设,建立不同模型。再由不同模型的拟合优度统计结果,评判它们的拟合效果,确定
三、结果分析
1.模型的选择
通过对多评分者多任务模型中任务和评分者的不同假设,对模型进行数据拟合,并采用CFI、TLI、RMSEA等拟合指标选择拟合效果最佳的模型。其中,不同拟合指标的拟合优度评判标准可概括为:CFI为比较拟合指数,若CFI大于0.9就可判定为模型对数据的拟合可以接受;TLI为非规范拟合指数,TLI0.9可判定为模型对数据的拟合可以接受;RMSEA为近似误差均方根,Steiger(1990)认为低于0.1可判定模型对数据的拟合效果好;低于O.05可判定为很好的拟合效果;低于0.01可判定为非常出色的拟合。
根据表l,可以看出:模型一,即多评分者多任务的全数据模型,在指定的迭代次数内模型参数估计没有达到收敛,因此关于多评分者多任务的全模型是否能用于评价多评分者信度的统计信息没有获得。本研究又尝试了用部分评分者数据建立模型,运行软件对参数进行估计,但均迭代无法收敛。可见使用全模型不适合现有的数据。依据上表中各模型与数据的拟合结果可知,模型三和模型四与数据拟合程度能够接受,模型二和模型五与数据拟合程度较好,而模型五的数据拟合程度略微好于模型二的数据拟合结果。多评分者多任务情境下的评分者信度模型可以通过测量模型五描述:各评分任务之间存在相关性,而一些评分者特性也存在相关性。该模型可以解释同一
文档评论(0)