人机英语作文评分比较的研究.docVIP

下载本文档

37
0
约6.05千字
约 13页
2018-10-12 发布于福建
举报
版权申诉

人机英语作文评分比较的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人机英语作文评分比较的研究

人机英语作文评分比较的研究　　摘要：文章从评分员角度出发，运用实证法，从分布、均值、多元线性回归三方面比较人、机对61份某大学期末考试英语作文的评分，发现机评结果分散，能更大程度地区分作文水平；人、机评分的总分无显著差异；机评关注词汇、句子，人评在注重内容的同时，也综合考虑词汇、句子、结构。相较而言，人评总分更能全面反映学生的英语书面写作能力。为了评分的经济、高效、公正，在类似的期末考试评分中，应将两种评分方式相结合。　　关键词：英语；作文；评分　　中图分类号：G640 文献标识码：A 文章编号：1002-4107（2018）01-0028-04 　　作文能测量学生综合运用语言的能力，是外语考试的必考题[1]。但作文评分有两大难题：一方面评分要耗费大量人力、物力等资源，另一方面评分主观性强、信效度不高。随着计算机软件性能的提高，作文自动评分系统（Automated Essay Scoring，以下简称为“系统”）应运而生。系统是使用计算机程序模拟人工评分，对作文进行快速、自动评分的计算机技术[2]。世界上第一个系统是Ellis Batten Page在1966年研制的PEG（Project Essay Grader）[3]。上世纪90年代后，国外出现了IEA（Intelligent Essay Assessor）、E-rater（Electronic Essay Rater）等主流系统。其中，美国教育考试服务中心研制的E-rater影响最广泛，于1999年应用于GMAT考试，随后一直被用于TOEFL、GRE考试中。相对而言，中国的系统研究起步晚，北京邮电大学在2004年研制出第一个系统。此外，梁茂成[4]、葛诗利等[5]、杨永林等[6]为代表的学者们也致力于研发适合中国英语学习者的系统。有些系统已开发成功并投入使用，促进了中国的英语写作教学和研究。系统实现了机器为作文评分，但机器评分结果的可信度也引起了测试界的关注。　　一、文献综述　　作文评分人、机比较研究始于Page，他在1968年比较了PEG与人工的作文评分，认为二者高度相关（r=0.78）[7]。沿用这个验证方法，不断有研究比较人、机评分，验证系统的适用性。国内的人、机评分比较研究开始较晚。第一个是万鹏杰的研究，他发现人、机评分的皮尔逊相关系数为0.324，认为二者的评分结果显著相关[8]。但鉴于他将皮尔逊相关系数与0.01相比，所以结论有待考证。何旭良分析了某系统评分的信度，比较了人、机评分的克隆巴赫系数，该值为0.694，他认为两组数据一致性高。但在后文中，他又通过T检验发现两组数据差异显著，p=0.008，t=-2.8，因此认为该系统评分有局限性[9]。吴俪?F以79份学生作文为样本，比较了学生自评、同伴互评、教师与某系统的评分结果，通过斯皮尔曼的相关比较。认为系统与学生自评、同伴互评、教师的评分结果有显著差异，建议教师慎用系统的评分[10]。殷小娟等人以145份大学生的写作训练文本为例，用斯皮尔曼相关和单因素方差分析，分别对比了两个系统与人工评分的相关性、差异性，证明两个系统与人工评分结果有显著差异[11]。王建分析了某系统的评分效度，通过相邻吻合一致性、皮尔逊相关系数、最大分数差的比较，提出该系统的评分误差较大[12]。　　鉴于上述研究的统计方法简单、样本选取的代表性不强，对一线教师的实用意义及指导作用有限。为研究系统的评分效果，指导教师在评分实践中恰当使用系统，正确引导学生进行英语写作，增强期末考试中作文评分的经济性、高效性、公平性。本文以评分员为研究对象，从分布、均值、多元线性回归三个方面比较研究人、机作文评分。　　二、研究方法　　本文运用定量研究法。在某大学的已评期末试卷中，随机选取由同一教师评分的61份试卷，试卷的作文题目为Using Smart Phones in the Classroom，满分16分，30分钟内完成，至少120个词。　　首先记录61份作文的得分，评分教师采用了分项评分法。标出作文在词汇、句子、结构、内容这四个维度的评分，四个分值相加即总分。其中，每个维度的满分都是4分。然后输入61份作文到某系统，多次核对以确保原貌呈现。设置系统的满分为16分，并将词汇、句子、结构、内容四个维度的占比都改为25%，由其自动评分。系统的结果中标出了总分，并显示词汇、句子、结构、内容四个维度的?u分比例。将四个比例都与4相乘，即为四个维度的评分。最后运用SPSS 20.0对两种评分结果进行统计分析。　　三、研究结果　　本文从分布、均值、多元线性回归三方面比较人、机作文评分。　　（一）分布差异　　教师评分中，总分有十三个值，介于8.0分―14.0分间；词汇评分有七个值，介于0.5分―3.5分间；句