- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人机英语作文评分比较的研究
人机英语作文评分比较的研究
摘 要:文章从评分员角度出发,运用实证法,从分布、均值、多元线性回归三方面比较人、机对61份某大学期末考试英语作文的评分,发现机评结果分散,能更大程度地区分作文水平;人、机评分的总分无显著差异;机评关注词汇、句子,人评在注重内容的同时,也综合考虑词汇、句子、结构。相较而言,人评总分更能全面反映学生的英语书面写作能力。为了评分的经济、高效、公正,在类似的期末考试评分中,应将两种评分方式相结合。
关键词:英语;作文;评分
中图分类号:G640 文献标识码:A 文章编号:1002-4107(2018)01-0028-04
作文能测量学生综合运用语言的能力,是外语考试的必考题[1]。但作文评分有两大难题:一方面评分要耗费大量人力、物力等资源,另一方面评分主观性强、信效度不高。随着计算机软件性能的提高,作文自动评分系统(Automated Essay Scoring,以下简称为“系统”)应运而生。系统是使用计算机程序模拟人工评分,对作文进行快速、自动评分的计算机技术[2]。世界上第一个系统是Ellis Batten Page在1966年研制的PEG(Project Essay Grader)[3]。上世纪90年代后,国外出现了IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)等主流系统。其中,美国教育考试服务中心研制的E-rater影响最广泛,于1999年应用于GMAT考试,随后一直被用于TOEFL、GRE考试中。相对而言,中国的系统研究起步晚,北京邮电大学在2004年研制出第一个系统。此外,梁茂成[4]、葛诗利等[5]、杨永林等[6]为代表的学者们也致力于研发适合中国英语学习者的系统。有些系统已开发成功并投入使用,促进了中国的英语写作教学和研究。系统实现了机器为作文评分,但机器评分结果的可信度也引起了测试界的关注。
一、文献综述
作文评分人、机比较研究始于Page,他在1968年比较了PEG与人工的作文评分,认为二者高度相关(r=0.78)[7]。沿用这个验证方法,不断有研究比较人、机评分,验证系统的适用性。国内的人、机评分比较研究开始较晚。第一个是万鹏杰的研究,他发现人、机评分的皮尔逊相关系数为0.324,认为二者的评分结果显著相关[8]。但鉴于他将皮尔逊相关系数与0.01相比,所以结论有待考证。何旭良分析了某系统评分的信度,比较了人、机评分的克隆巴赫系数,该值为0.694,他认为两组数据一致性高。但在后文中,他又通过T检验发现两组数据差异显著,p=0.008,t=-2.8,因此认为该系统评分有局限性[9]。吴俪?F以79份学生作文为样本,比较了学生自评、同伴互评、教师与某系统的评分结果,通过斯皮尔曼的相关比较。认为系统与学生自评、同伴互评、教师的评分结果有显著差异,建议教师慎用系统的评分[10]。殷小娟等人以145份大学生的写作训练文本为例,用斯皮尔曼相关和单因素方差分析,分别对比了两个系统与人工评分的相关性、差异性,证明两个系统与人工评分结果有显著差异[11]。王建分析了某系统的评分效度,通过相邻吻合一致性、皮尔逊相关系数、最大分数差的比较,提出该系统的评分误差较大[12]。
鉴于上述研究的统计方法简单、样本选取的代表性不强,对一线教师的实用意义及指导作用有限。为研究系统的评分效果,指导教师在评分实践中恰当使用系统,正确引导学生进行英语写作,增强期末考试中作文评分的经济性、高效性、公平性。本文以评分员为研究对象,从分布、均值、多元线性回归三个方面比较研究人、机作文评分。
二、研究方法
本文运用定量研究法。在某大学的已评期末试卷中,随机选取由同一教师评分的61份试卷,试卷的作文题目为Using Smart Phones in the Classroom,满分16分,30分钟内完成,至少120个词。
首先记录61份作文的得分,评分教师采用了分项评分法。标出作文在词汇、句子、结构、内容这四个维度的评分,四个分值相加即总分。其中,每个维度的满分都是4分。然后输入61份作文到某系统,多次核对以确保原貌呈现。设置系统的满分为16分,并将词汇、句子、结构、内容四个维度的占比都改为25%,由其自动评分。系统的结果中标出了总分,并显示词汇、句子、结构、内容四个维度的?u分比例。将四个比例都与4相乘,即为四个维度的评分。最后运用SPSS 20.0对两种评分结果进行统计分析。
三、研究结果
本文从分布、均值、多元线性回归三方面比较人、机作文评分。
(一)分布差异
教师评分中,总分有十三个值,介于8.0分―14.0分间;词汇评分有七个值,介于0.5分―3.5分间;句
您可能关注的文档
最近下载
- 2025年数字化农场管理方案研究项目可行性研究报告.docx
- 幼儿园社会治安最小应急单元管理制度.docx VIP
- PPT《建筑电气与智能化通用规范》GB 55024-2022 解读(OCR).pdf VIP
- 2025下半年教师资格考试新版试卷真题附答案(高中信息技术).docx VIP
- 生理学基础第十章-神经系统.ppt VIP
- ABB ACS180 drives User interface guide 手册(英语)说明书.pdf
- 驳岸工程施工方案.pdf VIP
- 股权激励变成股权纠纷通用.pdf VIP
- 南芯产品规格书SC8886.pdf VIP
- 胃食管反流病中西医结合诊疗专家共识(2025年).pptx VIP
原创力文档


文档评论(0)