写作机评原及应用述评.docVIP

下载本文档

0
0
约4.35千字
约 9页
2018-07-04 发布于福建
举报
版权申诉

写作机评原及应用述评.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

写作机评原及应用述评

写作机评原理及应用述评　　【摘要】本文依据语言测试领域的作文评分要素，对国外具有代表性的三种写作机评系统原理和国内主要的写作机评应用进行评介和比较，指出这些评分系统和软件在评分信度和效度等方面优势和劣势，并分析这些作文自动评分系统为我国自主开发作文自动评分系统所提供的借鉴作用。中国论文网 /1/viewhtm　　【关键词】写作机评系统原理写作机评应用评分要素　　写作自动评分系统对能够提高语言测试的效率和降低成本，本文着重介绍国外内经典的写作机评原理，并简要分析他们的优缺点。　　一、经典的写作机评原理　　1.基于语言形式的机评系统――PEG。PEG于1966年由美国杜克大学的Ellis Page等人开发。PEG的设计者认为作文质量有赖于作文的深层结构，而机器无法直接衡量，因此，他们以文本表层特征项为切入点，间接评价作文质量。　　PEG写作机评分三阶段：变量提取、多元回归分析和把多元回归得到的beta值代入计算机程序换算出作文得分。PEG首先收集了一部分人工评分后的作文，再利用自然语言处理技术，从作文中提取若干个文本特征项，并在这些文本特征项与人工评分之间进行相关性分析。然后，Page选择与人工评分相关的文本特征项作为自变量，把人工评分作为因变量，进行多元回归分析，得到回归方程。回归方程为每一个变量确定了beta值，这样，在对新的作文进行评分时，PEG只需要提取这些变量，并把beta值代入回归方程之中，就可以预测出这些作文的得分。PEG目前的程序中包含很多复杂的变量，但PEG的开发者们并没有对这些 “复杂的变量”作出明确的界定。　　2.基于内容的机评系统――IEA。IEA（Intelligent Essay Assessor）是一种基于潜伏语义分析的作文自动评分系统，由美国科罗拉多大学的Thomas Landauer等学者开发。不同于PEG，潜伏语义分析着重分析文本的内容，而不是语言。　　潜伏语义分析集理论与技术于一体。在理论层面上，它认为任何文本都有一个潜在的语义结构，这一潜在的语义结构即全部词汇的语义之和。然而，自然语言中存在大量的多词同义和一词多义现象，这对我们正确理解文本造成严重干扰。就技术而言，潜伏语义分析属于一种矢量空间模型技术，它可通过降维的方法，有效排除干扰，析取数据中的潜在语义结构。潜在语义结构可由一个词汇项文档矩阵来代表，矩阵中的每行表示一个词汇项，每列表示一个文档，而矩阵的每个单元格中的元素为相应词汇项在相应文档中出现的频数。　　运用矩阵代表潜在语义结构，可进行奇异值分解的矩阵运算，通过该运算，原来的矩阵可以被分解成为三个不同的矩阵。降维后，对这三个矩阵展开进一步的运算。该矩阵保持了原来矩阵中最重要的语义联想关系，同时又屏蔽了大量的干扰信息。　　将潜伏语义分析用于学生作文自动评分时，待评分的作文与范文均被视作矢量，完成矢量间的比较后，可得到每篇待评分作文与范文在内容上的相似度评分。根据Landauer等人的报告，该系统所评出的作文得分与人工评分之间的相关性达到r=0.85。　　3.基于层次结构的机评系统――E-rater。E-rater是由美国教育考试处于20世纪90年代开发，其目的是评估GMAT考试中的写作水平。该系统利用了多项技术，其中包括统计技术、矢量空间模型技术和自然语言处理技术。因此，它不仅能像PEG那样评判作文的语言质量，还能像IEA那样评判作文的内容质量。另外，E-rater还可分析语篇结构。类似于PEG，E-rater的评分方法基于线性回归模型。E-rater围绕三个层面评析作文的质量：第一层为话语结构（亦即篇章结　　构），主要靠在文本中搜索“To begin with”、“In conclusion”等篇章衔接词的方法得以实现；第二层为句法多样化，根据作文中句子结构的多样化来评判作文的语言质量；第三层为内容。这里，E-rater通过矢量空间模型，检测作文中是否包含了充足的与作文题目高度相关的主题词。　　研究表明，E-rater与人工评分之间的一致性一直高于97%。但E-rater的三个层次结构中具体包括哪些变量，则是众说纷纭。Kukich报告声称E-rater可析取100多个变量，Power et al.表示E-rater可析取50多个变量，而Attali和Burstein的报告则坚持认为最新版本的E-rater “依据有关理论对写作能力的若干方面给予考虑”，只提取12个变量。　　二、有代表性的写作机评应用　　1.国外主要英语作文自动评价工具软件。国外最有代表性的写作机评应用当Writing Roadmap 2.0（WRM 2.0）。著名学者吴一安和唐锦兰考察了机评系统WRM 2.0对高校英语写作教学的影响。学研究表明，学生写作能力、自