(word)第五单元评价翻译工具(141到146页).docVIP

(word)第五单元评价翻译工具(141到146页).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(word)第五单元评价翻译工具(141到146页)

ISO14598系列(软件产品评价)综合考虑不同意见,为软件评估提供实际执行方面的指导,它也可以与ISO9126中所述的六个主要特征结合使用。评价过程可能包括系统内部特定组件的评估或者整个系统的评估,本过程可分解为图5.3中所示的五个阶段。(参见Hovy, King和Popescu-Belis 2002b:50) 图5.3 评价过程示例 图5.3所示的评价要求阶段确定评估目的的标准。该标准旨在测量特定机器翻译系统的能力,发现它的优势和劣势。这意味着评估执行可针对系统内选定的组件,也可针对整个系统。这些标准包括充分性—评估用户友好性,有效性—评估资源消耗情况,语言质量—评估系统中源语和目的语的词汇,句法和语义的覆盖范围(Vertan和Hahn, 2003)。由于质量难以测量,ISO9126系列中提到的特性可用作质量测量标准。 在评价规格阶段,运用的测量类型通常取决于预先确定的标准和质量特性,如基于大规模的评分,即测量目标语言文本中出现词汇或句子错误的条目(Tomas, Angel Mas 和Casacuberta2003)。根据待评估的组件说明书,评估设计阶段需安排的计划和选定的方法(包括完成评估的时长,组件评估的顺序以及合适的方法,如测试套件或黑盒方法),都取决于评价服务于终端用户还是研究者。一旦评估设计方案通过,实际的评价任务就会生成。测量标准指的是第二阶段中所定义的度量规格中得到的分数。等级评定涉及测试成绩的分析,而评价就是等级评定的书面总结(参考Tomas, Angel Mas 和Casacuberta2003)。评价一完成,研究结果随即整理成文。此外,评价过程中系统发生的问题也将进行具体说明。一些情况下会对整个评价过程进行审查,以确保评价的初始目标得以实现,同时确认所遇到的问题。(查看Vertan和Hahn 2003)。 正如我前面提到的,ISO评价标准被用作机器翻译评价标准制定的基础。随着时间的推移,很多相关项目都参与到这一评价体系中来,下文将一一阐述。发展序列从EAGLES开始,ISO标准逐渐用于翻译环境中;后来,语言工程国际标准(ISLE)和评价方法测试平台研究:程序编写指南(TEMAA)进一步推广了这一新标准。另一首创者是ISLE的延伸--机器翻译评估框架(FEMTI)。这些项目相互间的拓展关系如图5.4所示,其中大部分项目由欧洲研究机构和美国政府机构共同合作。 ISO软件质量 EAGLES ISLE TEMAA FEMTI 图5.4机器翻译系统评价的标准化项目 现在让我们一一研究这些项目。正如我们所看到的,提供机器翻译评价标准的最早尝试之一是EAGLES计划(1993年至1996年)。该计划由欧盟委员会资助,旨在弥补语言技术评价标准的不足。由于没有总框架或一套适用于所有评价的系统程序,大家感到建立一个灵活可变的评估框架可能是解决之道。EAGLES的首创之一是明确评价来源、工具和产品的方法。它创建了自然语言处理系统的总体质量模型,其中包括特征和属性的递阶分类。该模型可以根据评价目的,提取具体特征和属性,来满足任一特定的终端用户的需求(Hovy, King和Popescu-Belis2002 b:47)。换言之,EAGLES旨在制作一个结合不同特征和属性的评价程序包,可反映一个终端用户的需求。 作为一个面向用户的评价体系,EAGLES提出的总体框架由三大部分组成。第一部分是一系列满足特定条件的属性,旨在评价翻译工具。例如,该评价体系必须有充足的属性来表达最终用户列出的所有要求。这些属性还必须足够通用,能够重复不同终端用户群体的相似评价。识别后的属性将决定第二部分,即需求。这些需求与系统设计对象的需求息息相关,可分为两类,功能性和非功能性。功能性需求是指系统需要支持的特定任务(参见ISO9126下的功能),而非功能性需求指系统执行特定任务时受到的制约(参见ISO9126下的效率)。 当需求列举出来后,可以开始选择第三部分,即评价方法。评价方法由三部分组成:测试类型,测试仪器和测试材料。测试类型通常取决于评价动机,例如,是否评估系统在日常工作中的可用性,是否检查系统在严格的工作条件下的表现,是否检查系统一般情况下的功能性。针对不同的动机,可以实施三种测试类型:场景测试,系统测试和功能检查。 场景测试指以终端用户的环境为基础进行评价,可以在野外或实验室中进行。野外测试使用终端用户实际的工作环境,但仅适用于已充分运作的系统。实验室测试采用基于任务的环境,该环境对每个任务进行单独测试,这种测试仅适用于部分运作的系统。系统测试指在非常特殊的条件下进行的测试,其结果通常与预期的结果一致。实现系统测试有三种方法:任务导向,菜单导向和基准测试。在任务导向的系统测试中,系统将在实际工作环境中执行预定义的任务,系统被期望产生预期的结果

文档评论(0)

wyj18116135670 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档