基于多层面Rasch模型的大规模网上作文评分一致性检测.docVIP

下载本文档

5
0
约3.73千字
约 7页
2019-07-12 发布于北京
举报
版权申诉

基于多层面Rasch模型的大规模网上作文评分一致性检测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 基于多层面Rasch模型的大规模网上作文评分一致性检测　　摘要：评分不一致是影响评分信度的主要因素。本文运用多层面Rasch分析软件FACETS对评分员在联网状态下作文评分的严厉度与内部一致性进行评估。根据拟合值和偏差值检测出评分不一致的评分员，后期将对他们进行再培训或予以更换，以此来保证大规模考试网上作文评分的信度。　　关键词：多层面Rasch模型；FACETS；网上评分；信度　　中图分类号：G42文献标识码：A文章编号：1009-0118（2013）02-0025-02 　　一、引言　　随着互联网技术的深入应用，在语言测试领域，一种以计算机为基础的网上作文测试及人工阅卷的方法已经开始实施。与传统的阅卷方式相比，保证网上评分的一致性就成了一个亟待解决的问题。本文以湖南大学分级考试（简称CEPT）为例进行研究，使用FACETS（Linacre1999）试图研究两个问题：（一）分析影响大规模考试评分信度的因素及各因素之间的交互作用；（二）探讨如何使用FACETS检测评分一致性。　　二、研究背景　　（一）多层面Rasch模型用于信度研究　　Linacre（1989）在Rasch的基础上提出了多层面Rasch测量（FACETS）。它将影响考生得分的因素分为若干层面并将其参数化，这些层面参数相互作用，共同影响考生在某个题目上得分的概率。　　在作文测试中，决定考生成绩的因素包括考生能力、任务难度和评分员的严厉程度。FACETS可以在同一洛基量表上对以上因素进行分析，找出各个方面的内部成分之间是否存在显著性差异。模型还可以进行拟合分析，从而反映成分的拟合程度。如评分员拟合值可以表示评分行为的内部一致性。通过分析，我们可以对评分员的严厉度和一致性有一个详细的了解。这也是本文要研究的主要问题。文中将会检测评分员的严厉度是否存在显著差异，评分员对评分标准的掌握是否会出现评分者效应和评分的趋中性、光环效应及偏差（MyfordWolf，2003，2004）。FACETS的另一重要功能是提供偏差分析，从而帮助判断两个方面之间是否存在交互作用。本文将利用这一功能研究评分员与写作任务之间的交互作用。　　（二）CEPT写作测试　　目前高考实施各省自主命题，题目难度有所不同，考生的分数已不能完全地反映他们的能力，进入同一所大学的新生英语水平也存在显著差异。准确评估新生英语水平能够为大学英语教学提供科学依据。CEPT的目的是对大学新生的听、说、读、写能力进行系统全面的评估。根据测试成绩对学生进行分班教学，分数相当的学生分在同一班级，从而提高教学的针对性。　　写作部分要求考生在30分钟内根据题目和相关提示完成一篇作文，题目由电脑从试题库中随机生成，考生的写作也要求在电脑上完成。　　（三）CEPT作文评分的实施方法　　与经典测量理论和概化理论相比，项目反应理论的优点之一是可以处理丢失的数据，每篇作文不需要所有的评分员都来评分（McNamara1996）。作文评分采用交叉设计使得各个层面之间建立关联性（Linacre1989）。本文采取的“二读法”就满足了这样的要求：即每位考生的作文分别由两位评分员进行评分。如考生1的作文由评分员1和评分员2评分，考生2的作文由评分员2和评分员3评分，依此类推。　　评分标准采用整体评分法。研究表明整体评分法的效率高于分项评分法，在大规模的测试中使用整体评分法更适合。　　评分量表采用加拿大语言等级标准，包括“写作任务”、“语法”、“标点和书写”、“词汇使用”、“文章结构”五个评分维度。根据考生作文质量，将其划分为010、020、030、040、050五个等级。最后考生的报道分数为两位评分员打分并加权后总和的平均值的评分等级。　　三、数据及其模型　　（一）数据来源　　本文中的数据来自湖南大学CEPT的一次测试。参加测试者540人，电脑随机地从4道备选题目中选出一道作为考生的写作题目，9位评分员都有一定的教学经验和阅卷经验，其中2位评分员是湖南大学外国语学院的英语教师，7位评分员是语言测试方向的研究生。Brown指出评分员的专业背景不会对评分的严厉度造成影响。　　（二）数据分析模型　　本研究中，决定考生作文成绩的因素有考生能力、任务难度（即题目难度）、评分员的严厉程度以及Fjk，由此产生的logistic数学模型为：　　Log（Pnijk/Pnij（k-1））=Bn-Di-Cj-Fjk 　　其中：Pnijk表示考生n在任务i上被评分员j评为k分的概率；Pnij（k-1）表示考生n在任务i上被评分员j评为k-1分的概率；Bn表示考生n的能力；Di表示任务i的难度；Cj表示评分员j的严厉程度；Fjk表示评分员j认为考生获得分数k的平均难度。　　四、数据分析　　利用F