近五十年来自动评分的研究综述.docVIP

下载本文档

5
0
约5.8千字
约 12页
2018-11-07 发布于福建
举报
版权申诉

近五十年来自动评分的研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

近五十年来自动评分的研究综述

近五十年来自动评分的研究综述　　【摘要】近五十年来，国内外相继开发出多个英语作文自动评分系统，研究日臻成熟。在翻译领域，自动评分研究主要局限于机器翻译评价，人工译文自动评分研究仍处于初级阶段。近年国内建立起针对中国学生的汉译英自动评分模型，针对英译汉的自动评分研究也开始起步。由于中国学生的英译汉具有自身的特点，其评分系统在变量挖掘、模型验证等方面与已有研究不同。　　【关键词】自动评分；作文；翻译；学生英译汉　　【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097（2013）06―0062―05 　　引言　　主观题是测量语言技能的有效方式，目前已被广泛运用于各类英语考试，其自动评分是测试领域关注的一个焦点。自二十世纪六十年代以来，国外己开发出多个作文自动评分系统，并应用于GRE、GMAT等大型考试中。在国内，梁茂成研制了适合中国英语学习者的作文自动评分系统，取得了良好的效果。在翻译领域，极少数研究也对学生汉译英的自动评分进行了尝试。但是，针对英译汉的自动评分研究仍处于起步阶段。本文将回顾近五十年来自动评分技术的优劣，探讨英译汉机器评分系统与已有研究的异同。　　一作文自动评分系统　　历史上第一个作文自动评分系统是1966年研制的PEG。二十世纪九十年代以后，IEA、E-rater、IntelliMetric、MY Aeeess等作文自动评分系统相继出现。近年来，自动评分扩展到医学、建筑、艺术、计算机等领域，评分对象涉及简答、绘图、口试等多种主观题。本文仅对四个主要作文自动评分系统进行回顾，其主要特点见表1。　　第一，测量对象。表1显示，作文自动评分系统的测量对象从语言形式发展到语义内容，再过渡到语言、内容和结构三个方面。在梁茂成的研究中，内容模块主要考察作文是否紧扣主题；语言模块主要衡量作文语言形式的准确性；结构模块主要评判作文是否满足独立成篇的条件。这三个模块可以直接追溯到写作能力的构念，具有较好的效度，也更符合写作测试的评价标准。　　第二，评分方法。PEG、E-rater和梁茂成的系统都采用变量提取、多元回归、计算作文分数三大步骤来完成评分。首先，研究者从一批事先评分的作文中提取一系列文本特征，再以这些特征为自变量、人工评分为因变量进行多元线性回归分析，得到能够最大限度地预测分数的回归方程，最后将新作文的相关变量代入方程，获得机器给新作文评出的分数。　　第三，主要技术。四个评分系统都采用多种技术来提取变量。其中，IEA和梁茂成的系统都采用了潜语义分析方法（Latent Semantic Analysis）。其基本假设是，文本中隐藏着一个潜在的语义空间，是所有词汇的语义之和。由于语言中存在大量多词同义和一词多义现象，语义空间往往带有许多噪音，需要通过特征过滤、选择、抽取来进行压缩。具体做法是：首先，研究者使用停词表过滤信息量很少的词汇；其次，选择一批与主题相关的文本（如专家作文、主题知识材料）构建词频矩阵，并根据词频对词汇赋予不同权重。词汇出现的次数越多，表示信息量越小，权重越低；最后，使用奇异值分解技术（SingularValue Decomposition）对矩阵进行降维。这种技术类似于主成分分析法，压缩后的矩阵既保留了原矩阵的重要信息，又排除了干扰信息，代表作文主题的典型潜在语义空。潜语义分析具有提取语义内容的优势，甚至能够处理创造性的记叙文。不过，它忽略了词汇顺序、句法、逻辑等信息，不能反映学生的全部知识，因而需要与反映语言形式的变量结合使用。　　与潜语义分析不同，E-rater使用向量空间模型（VectorSpace Model）来判定文本内容的相关度。不过，这是一种基于主题词分析的技术，难以达到潜语义分析的降维、消除噪音等效果。　　第四，主要变量。各个系统使用的主要变量与其测量对象对应。例如，梁茂成采用流利度、地道性、复杂度方面的变量来考察语言形式质量，采用语义相似度来衡量语义质量，采用连接词等特征来评判作文结构质量。　　第五，验证方法。上述系统主要采用相关度和一致性来检验机器评分与人工评分的接近程度。相关度反映机器与人工排序的相似性，既包括机器与单个评分员评分的相关，也包括机器与多名评分员平均分数的相关。第一种相关度不一定可靠，因为单个评分员的评分可能具有偏差（bias），内部一致性难以保证；第二种相关度更有价值，因为多名评分员对同一名学生的平均评分接近其真分数（true score）。　　一致性反映具体评分等级的一致程度，包括绝对一致和相邻一致百分比。前者指机器与人工所评等级相同的文本数量占所评文本总数的比例，后者指机器与人工所评等级相差1级的文本数量占所评文本总数的比例，两者各有所长。当评分结果为离散数据且等级较少时，往往使用绝