(word)第五单元评价翻译工具(141到146页).docVIP

下载本文档

4
0
约 4页
2017-06-10 发布于北京
举报
版权申诉

(word)第五单元评价翻译工具(141到146页).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(word)第五单元评价翻译工具(141到146页)

ISO14598系列（软件产品评价）综合考虑不同意见，为软件评估提供实际执行方面的指导，它也可以与ISO9126中所述的六个主要特征结合使用。评价过程可能包括系统内部特定组件的评估或者整个系统的评估，本过程可分解为图5.3中所示的五个阶段。（参见Hovy, King和Popescu-Belis 2002b:50）图5.3 评价过程示例图5.3所示的评价要求阶段确定评估目的的标准。该标准旨在测量特定机器翻译系统的能力，发现它的优势和劣势。这意味着评估执行可针对系统内选定的组件，也可针对整个系统。这些标准包括充分性—评估用户友好性，有效性—评估资源消耗情况，语言质量—评估系统中源语和目的语的词汇，句法和语义的覆盖范围（Vertan和Hahn, 2003）。由于质量难以测量，ISO9126系列中提到的特性可用作质量测量标准。在评价规格阶段，运用的测量类型通常取决于预先确定的标准和质量特性，如基于大规模的评分，即测量目标语言文本中出现词汇或句子错误的条目（Tomas, Angel Mas 和Casacuberta2003）。根据待评估的组件说明书，评估设计阶段需安排的计划和选定的方法（包括完成评估的时长，组件评估的顺序以及合适的方法，如测试套件或黑盒方法），都取决于评价服务于终端用户还是研究者。一旦评估设计方案通过，实际的评价任务就会生成。测量标准指的是第二阶段中所定义的度量规格中得到的分数。等级评定涉及测试成绩的分析，而评价就是等级评定的书面总结（参考Tomas, Angel Mas 和Casacuberta2003）。评价一完成，研究结果随即整理成文。此外，评价过程中系统发生的问题也将进行具体说明。一些情况下会对整个评价过程进行审查，以确保评价的初始目标得以实现，同时确认所遇到的问题。（查看Vertan和Hahn 2003）。正如我前面提到的，ISO评价标准被用作机器翻译评价标准制定的基础。随着时间的推移，很多相关项目都参与到这一评价体系中来，下文将一一阐述。发展序列从EAGLES开始，ISO标准逐渐用于翻译环境中；后来，语言工程国际标准（ISLE）和评价方法测试平台研究：程序编写指南（TEMAA）进一步推广了这一新标准。另一首创者是ISLE的延伸--机器翻译评估框架（FEMTI）。这些项目相互间的拓展关系如图5.4所示，其中大部分项目由欧洲研究机构和美国政府机构共同合作。 ISO软件质量 EAGLES ISLE TEMAA FEMTI 图5.4机器翻译系统评价的标准化项目现在让我们一一研究这些项目。正如我们所看到的，提供机器翻译评价标准的最早尝试之一是EAGLES计划（1993年至1996年）。该计划由欧盟委员会资助，旨在弥补语言技术评价标准的不足。由于没有总框架或一套适用于所有评价的系统程序，大家感到建立一个灵活可变的评估框架可能是解决之道。EAGLES的首创之一是明确评价来源、工具和产品的方法。它创建了自然语言处理系统的总体质量模型，其中包括特征和属性的递阶分类。该模型可以根据评价目的，提取具体特征和属性，来满足任一特定的终端用户的需求（Hovy, King和Popescu-Belis2002 b:47）。换言之，EAGLES旨在制作一个结合不同特征和属性的评价程序包，可反映一个终端用户的需求。作为一个面向用户的评价体系，EAGLES提出的总体框架由三大部分组成。第一部分是一系列满足特定条件的属性，旨在评价翻译工具。例如，该评价体系必须有充足的属性来表达最终用户列出的所有要求。这些属性还必须足够通用，能够重复不同终端用户群体的相似评价。识别后的属性将决定第二部分，即需求。这些需求与系统设计对象的需求息息相关，可分为两类，功能性和非功能性。功能性需求是指系统需要支持的特定任务（参见ISO9126下的功能），而非功能性需求指系统执行特定任务时受到的制约（参见ISO9126下的效率）。当需求列举出来后，可以开始选择第三部分，即评价方法。评价方法由三部分组成：测试类型，测试仪器和测试材料。测试类型通常取决于评价动机，例如，是否评估系统在日常工作中的可用性，是否检查系统在严格的工作条件下的表现，是否检查系统一般情况下的功能性。针对不同的动机，可以实施三种测试类型：场景测试，系统测试和功能检查。场景测试指以终端用户的环境为基础进行评价，可以在野外或实验室中进行。野外测试使用终端用户实际的工作环境，但仅适用于已充分运作的系统。实验室测试采用基于任务的环境，该环境对每个任务进行单独测试，这种测试仅适用于部分运作的系统。系统测试指在非常特殊的条件下进行的测试，其结果通常与预期的结果一致。实现系统测试有三种方法：任务导向，菜单导向和基准测试。在任务导向的系统测试中，系统将在实际工作环境中执行预定义的任务，系统被期望产生预期的结果