- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子阅卷员在美国的发展及在我国应用的探讨
冯鑫冯卉
(作者简介:冯鑫,男,I専丄研究主,哥伦比亚人学统计学系,10025;冯卉,女,硕丄,讲
师,天津人学外语学院,300071)
摘要:本文以e-rater为例对电子阅卷员在美国的发展进行了详细的介绍,其中涉及发 展简史、设计原理、语言学变量的获取、统计建模、结果分析、未来研究方向等多方面的问 题;并从英语考试、中文考试、技术要求等诸多角度对电子阅卷员在我国应用的可行性与艰 巨性进行了探讨。
关键词:电子阅卷员;作文考试;计算语言学;吻合率
一、序论
对写作的评佔在考试以及教育中一直处于十分重耍的地位。早在二千一百年前,中国就 将作文考试用于选拔政府官员。到19世纪,作文考试已经在欧洲和美国的考试中广为应用。 20世纪初,电了读卡机的发明带來了考试界的革命,它大大促进了选择题(multiple choice) 的发展与应用,并使客观、迅速的评分和大批量的标准化测试成为町能。虽然作文考试的地 位曾被动摇,但人们从没有忽视过作文考试的重要性。现在,人们日益强调基于表现 (performance-based)的考试,这就要求在标准化测试屮加入尽町能多的主观性题口,如写 作。研究表明,在选择题考试屮添加一道(或以上)的写作题目,不仅能够提高该考试的有效 性(validity),还可以减小性别造成的差异(Willingham Cole, 1997; Heck Crislip, 2001)o
与作文考试相伴的是作文阅卷和评估。众所周知,这并不是一件容易的事。作文阅卷遇 到的第一个问题就是工作量巨大。仅在2001年这一年中,美国教育考试服务处(Educational Testing Service, ETS)人工评阅了超过一千万份考试作文。在中国,这个数字会以亿为单 位。其次,人丄阅卷员的准确性和客观性也受到质疑。研究显示,人工阅卷员彼此Z间的吻 合率(agreement rate)并不高;一般来讲,相关系数大约为0. 50至lj 0.60(Page, 1996)?当 耍求阅卷员在相隔足够长的时间后对同一篇作文第二次打分时,阅卷员的自我吻合率 (self-agreement)大约为0.70(Page, 1995) 0当然,多个有经验的阅卷员共同阅卷时,最 终综合结果的可靠性(reliability)会大大提鬲,但H前尚无考试机构能负担两个以上的阅 卷员进行常规性阅卷。再次,人工阅卷员的评分尚不能满足对考分使用的两大需求。从考试 者个人角度讲,人工阅卷员只给考试者一个分数,而并无相应的反馈与诊断性信息;考生无 从知道自己写作的可取之处与薄弱环节,因此也不能进行有针对性的学习。从整体考虑,人 工阅卷的地域性和流动性使跨地区、跨年度的比较变得十分困难。以屮国的高考为例,由于 是以省为单位纽织阅卷,阅卷尺度不尽相同,我们就不能将各省的作文分直接比较;每年的 阅卷员在人员上不同,对同一地区的不同年份的成绩也无法进行有效比较,因此高考就不能 充分、及时、有效地行使中学教育指挥棒的职能。
在人力资源L1益昂贵的同时,计算机软破件的成木大大降低。当今,计算机广泛地用于 家庭和学校;文字处理、语法检测及语言学的软件发展十分迅速。研究者想到了尝试用计算 机辅助作文阅卷,从而降低成木并提高阅卷质量。早在20世纪60年代,受当时自然语言处 理技术的启发,美国康涅狄格州的一些研究者开始考虑利用计算机阅卷的町行性(Kuno. 1964: Stone et al, 1966)。目前,在美国具有相当影响力的三个电子阅卷员是:Project Essay Grade ,其主要发明者为公爵大学(Duke University)的Ellis Page;科罗拉多大学 (University of Colorado)的 Thomas Landauer 及其学生研究发明的 Intelligent Essay Assessor以及美国教育考试服务处(ETS)的Jill Burstein, Martin Chodorow等人研制的 E-ratero本文将着重介绍E-rater。
二、E~rater 简介
1997 年秋,E-rater 在 Graduate Management Admission Test (GMAT)的写作考试中进 行检测。1998年,E-rater作为第二阅卷员与另一位人工阅卷员一起对GMAT的写作部分打 分。当年美国教育考试服务处的GMAT开支削减近两百万美元。
E-rater如何对作文准确合理地打分呢? 一个有效的方法就是依照评分标准来模拟人 工阅卷员对作文的评判,这也是E-rater的一个重要的设计思想与出发点。GMAT作文的满 分为6分,评分标准耍求,一篇优秀的作文(5或6分)要紧扣文题,论证有组织、有力
您可能关注的文档
最近下载
- 能源科技有限公司100MW200MWh储能项目110KV升压站安全预评价报告.doc VIP
- 评估公司内部管理制度.doc VIP
- 西师大版五年级上册小学数学期中试卷.pdf VIP
- PEP三年级英语上册 Unit 6单元练习题.doc VIP
- 新解读《EJ_T 287-2000氚内照射剂量估算与评价方法》最新解读.docx VIP
- 统编人教版高中地理必修第一册第一、二章章节单元测试卷(含答案解析).pdf VIP
- 北师大版八年级数学上册 第二章 实数 单元检测试题(有答案).docx VIP
- 风电、光伏项目前期及建设手续办理流程汇编.docx
- 地籍档案管理基本知识 完整版2025.pdf VIP
- 金属非金属矿山安全规程培训.pptx
文档评论(0)