电子阅卷员在美国的发展及在我国应用的探讨.docxVIP

下载本文档

5
0
约1.5万字
约 10页
2019-11-26 发布于广东
举报
版权申诉

电子阅卷员在美国的发展及在我国应用的探讨.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

电子阅卷员在美国的发展及在我国应用的探讨冯鑫冯卉 (作者简介：冯鑫，男，I専丄研究主，哥伦比亚人学统计学系，10025；冯卉，女，硕丄，讲师，天津人学外语学院，300071) 摘要：本文以e-rater为例对电子阅卷员在美国的发展进行了详细的介绍，其中涉及发展简史、设计原理、语言学变量的获取、统计建模、结果分析、未来研究方向等多方面的问题；并从英语考试、中文考试、技术要求等诸多角度对电子阅卷员在我国应用的可行性与艰巨性进行了探讨。关键词：电子阅卷员；作文考试；计算语言学；吻合率一、序论对写作的评佔在考试以及教育中一直处于十分重耍的地位。早在二千一百年前，中国就将作文考试用于选拔政府官员。到19世纪，作文考试已经在欧洲和美国的考试中广为应用。 20世纪初，电了读卡机的发明带來了考试界的革命,它大大促进了选择题(multiple choice) 的发展与应用，并使客观、迅速的评分和大批量的标准化测试成为町能。虽然作文考试的地位曾被动摇，但人们从没有忽视过作文考试的重要性。现在，人们日益强调基于表现 (performance-based)的考试，这就要求在标准化测试屮加入尽町能多的主观性题口，如写作。研究表明，在选择题考试屮添加一道(或以上)的写作题目，不仅能够提高该考试的有效性(validity),还可以减小性别造成的差异(Willingham Cole, 1997； Heck Crislip, 2001)o 与作文考试相伴的是作文阅卷和评估。众所周知，这并不是一件容易的事。作文阅卷遇到的第一个问题就是工作量巨大。仅在2001年这一年中，美国教育考试服务处(Educational Testing Service, ETS)人工评阅了超过一千万份考试作文。在中国，这个数字会以亿为单位。其次，人丄阅卷员的准确性和客观性也受到质疑。研究显示，人工阅卷员彼此Z间的吻合率(agreement rate)并不高;一般来讲，相关系数大约为0. 50至lj 0.60(Page, 1996)?当耍求阅卷员在相隔足够长的时间后对同一篇作文第二次打分时，阅卷员的自我吻合率 (self-agreement)大约为0.70(Page, 1995) 0当然,多个有经验的阅卷员共同阅卷时,最终综合结果的可靠性(reliability)会大大提鬲，但H前尚无考试机构能负担两个以上的阅卷员进行常规性阅卷。再次，人工阅卷员的评分尚不能满足对考分使用的两大需求。从考试者个人角度讲，人工阅卷员只给考试者一个分数，而并无相应的反馈与诊断性信息；考生无从知道自己写作的可取之处与薄弱环节，因此也不能进行有针对性的学习。从整体考虑，人工阅卷的地域性和流动性使跨地区、跨年度的比较变得十分困难。以屮国的高考为例，由于是以省为单位纽织阅卷，阅卷尺度不尽相同，我们就不能将各省的作文分直接比较；每年的阅卷员在人员上不同，对同一地区的不同年份的成绩也无法进行有效比较，因此高考就不能充分、及时、有效地行使中学教育指挥棒的职能。在人力资源L1益昂贵的同时，计算机软破件的成木大大降低。当今，计算机广泛地用于家庭和学校；文字处理、语法检测及语言学的软件发展十分迅速。研究者想到了尝试用计算机辅助作文阅卷，从而降低成木并提高阅卷质量。早在20世纪60年代，受当时自然语言处理技术的启发，美国康涅狄格州的一些研究者开始考虑利用计算机阅卷的町行性(Kuno. 1964： Stone et al, 1966)。目前，在美国具有相当影响力的三个电子阅卷员是:Project Essay Grade ,其主要发明者为公爵大学(Duke University)的Ellis Page；科罗拉多大学 (University of Colorado)的 Thomas Landauer 及其学生研究发明的 Intelligent Essay Assessor以及美国教育考试服务处(ETS)的Jill Burstein, Martin Chodorow等人研制的 E-ratero本文将着重介绍E-rater。二、E~rater 简介 1997 年秋，E-rater 在 Graduate Management Admission Test (GMAT)的写作考试中进行检测。1998年，E-rater作为第二阅卷员与另一位人工阅卷员一起对GMAT的写作部分打分。当年美国教育考试服务处的GMAT开支削减近两百万美元。 E-rater如何对作文准确合理地打分呢？一个有效的方法就是依照评分标准来模拟人工阅卷员对作文的评判，这也是E-rater的一个重要的设计思想与出发点。GMAT作文的满分为6分，评分标准耍求，一篇优秀的作文(5或6分)要紧扣文题，论证有组织、有力