大学生英语作文中的语言错误特征提取.docx

大学生英语作文中的语言错误特征提取.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大学生英语作文中的语言错误特征提取 近年来,中国的英语教育取得了显著成效。与几年前相比,学生的英语水平有了显著提高,但英语写作一直是一个弱点。究其原因,近年来高校师生比的扩大,教师对于英语作文的批改乏力是一个直接的原因。自然语言处理技术的发展,尤其是近年来自动作文评分的相关研究为学生写作提供自动评分与反馈提供了一个可能的解决方案。自动作文评分中一项重要的特征就是语言错误。该特征的准确识别和提取,既能为作文评分提供依据,又可为学生提供详尽的语言使用情况的反馈,为作文修改提供参考,从而提高学生写作水平。但由于中国学生英语写作中的语言错误种类繁多,英语语言使用错误检查的召回率仍然很低。本文结合词汇二元接续的相关研究和大学英语作文词汇使用规律,深入研究了中国大学生英语作文中词汇二元接续正确性情况,能够较准确地发现词汇邻接错误,向英语学习者提供准确性较高的疑似词汇邻接错误的反馈,为自动作文评分提供支持。 1 词汇接续统计方法存在的问题 N元语法模型,尤其是二元语法和三元语法,广泛应用于语音识别、音字转换、词性标注、语义消歧、以及机器翻译等方面,也可以用于语言使用的正确性判断。例如,要判断词A接续词B是否正确,可以利用大型语料库计算序列AB间的转移概率,如果概率足够大,可认为这个接续是正确的,否则认为是不正确的。这是自动作文评分系统E-rater V.2中一个重要的特征提取方法(AttaliBurstein,2006:8)。但该方法存在一定的问题,即由于某些词汇的接续能力很强,其后可以接续很多不同的词汇,这就造成了即使某一词汇在其后出现很多次,但其概率仍然很低,所以在语言使用正确性判断方面,直接使用两个词在大规模语料库中邻接的绝对频次效果更好。即两词前后邻接次数低于某一阈值,则这两个词的接续就可能是不正确的。词汇接续统计方法在宋柔的汉语校对系统研究中得到了很好的应用(宋柔,2001:47-48)。 当然,不管是使用词汇接续概率还是绝对频次来进行语言使用正误的判断都不是绝对的。首先,语言从语法上来说有其内部层次结构,而不是简单的线性结构,更遑论其语义甚至语用方面。其次,即便是针对句子的线性结构进行研究,由于语料库的大小和其中语言材料的语域限制,很多词汇接续也不会出现,或者出现频次很少,也就是统计语言模型研究中的数据稀疏问题。这就使得自动判定的语言错误不可能百分之百正确,只能作为疑似错误反馈给人进行最后的判定。但自动判定的召回率和准确率直接决定了错误识别涵盖的范围和人工判定工作量的大小。由于本研究针对语言错误的自动识别,“错误识别的准确率”术语较长,为清晰起见,本研究中准确率又称含错率,定义如下: 召回率=二元接续中包括的错误数量/学生作文中错误总数量*100% 准确率(含错率)=包含错误的二元接续数量/低于某一阈值的所有二元接续数量*100% 本研究力图提高我国大学生英语作文中词汇二元接续错误自动识别的召回率和准确率。 2 研究设计 2.1 语言错误和语法检查器 本研究的中国大学生作文语料主要来自中国学习者英语语料库(CLEC)的st3子库,少部分取自关兴华、陈建辉(2004)编著的《大学生英语作文》,共660篇,其中2分60篇,5、8、11和14分各150篇。由于本研究的目标并非词语拼写和简单语法错误,因此,预处理中利用现有技术对作文中的这些语言错误进行识别和改正。错误改正主要是以MS Word 2003的拼写和语法检查器为标准,能够发现错误并且所提供的改正中有正确选项的,进行改正,否则不作改动。 预处理中还对语料采用美国斯坦福大学概率词性标注软件(Stanford NLP Group Part-of-Speech tagger)(Toutanova,2009)标注词性。标注集采用宾州树库词性标注集,抽样统计词性标注准确率达97.6%,高于可接受的95%的词性赋码准确率(de Haan,1999,见梁茂成,2006:282)。 2.2 元接续管理策略 在本论文研究中使用的训练语料库是英语本族语语料库,包含2GB华尔街日报语料。虽然该语料库中主要是经济类语言材料,语域范围不大,但仍能为本论文研究所使用。原因是中国非英语专业大学生的英语作文,所使用的词汇主要集中在2000基本词汇,而这些词汇的使用,不管在哪个语域中频率都比较高。 为了研究学生作文中词汇二元接续情况,首先需要编写程序从本族语大型语料库中提取词汇的二元接续数据。该程序流程如下: (1)把语料库中所有文章拆文成句。 (2)识别句子中所有专名和数字,包括阿拉伯数字和英文数字,并分别以专用符号代替。 (3)识别句子中所有断句的标点,并在其前、后插入空格。 (4)以空格拆分句中所有词汇和标点。 (5)按顺序把第一个词汇或标点到倒数第二个词汇或标点依次与其后的一个词汇或标点结合成为一个词

文档评论(0)

139****9425 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档