我们应该评估现实世界的影响-计算机科学-自然语言处理-影响评估.pdf

我们应该评估现实世界的影响-计算机科学-自然语言处理-影响评估.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

LastWords

我们应该评估现实世界的影响

EhudReiter

UniversityofAberdeen,UK

e.reiter@abdn.ac.uk

ACL社区对评估NLP系统的实际影响几乎没有兴趣。对ACL文集的结构化调查显

本示,可能只有0.1%的论文包含此类评估;此外,大多数包含影响评估的论文只是粗

略地提到了这些评估,而主要关注指标评估。如果我们认真尝试理解和评估其实际

译影响,NLP技术将更加有用,并被更快地采用。

11.介绍

v

3医学界非常重视评估新药物和其他干预措施实际效果的临床试验;教育和工程领域

7

9的论文也经常展示新技术的实际影响数据。但在自然语言处理领域,很少有论文(即

5

0使是工业或应用轨道)会提供已部署系统的实际效果数据。我们经常声称大型语言

.

7模型和其他NLP技术正在改变世界(Maslejetal.2025),但我们不愿意提供关于已

0部署的NLP系统如何改善现实世界的关键绩效指标(关键绩效指标)的数据;我将

5

2下面这类KPI的变化称为影响。

:

v当然,提供现实世界KPI变化的数据很难,比在测试集上计算基准和指标分数

i

x或让众包工作者评估输出质量要难得多。衡量影响需要将系统部署到生产使用中,监

r

a控其对用户的影响,并获得公开发布这些数据的许可。尽管如此,其他领域仍在发

表关于大语言模型现实世界影响的论文,包括医学(Dugganetal.2025)和软件工程

(Pandeyetal.2024),因此这是可以做到的。

值得注意的是,即使在衡量实际影响时,许多自然语言处理论文也将其视为次

要于指标评估。例如,Maheshwary,Paul,andSohoney(2024)详细描述了基于指标

的评估,然后在一个段落中总结了显示关键绩效指标(KPI)显著改进的实际A/B

影响评估(第4.1节)。类似地,Yoonetal.(2024)详细描述了基于指标的评估,然

后简要提到实际的前后研究展示了非常令人印象深刻的KPI改进。总之,许多自然

Actioneditor:SaifMohammad.Submissionreceived:27April2025;revisedversionreceived:19June2025;

acceptedforpublication::22June2025.

©2025AssociationforComputationalLinguistics

ComputationalLinguisticsVolumevv,Numbernn

语言处理研究人员似乎并不认为实际影响很重要(至少在学术论文中是这样),即使

他们拥有这方面的数据。

在本文中,我首先讨论并给出影响评估的示例。然后通过文献调查表明,在自

然语言处理领域这类论文很少,并以讨论和建议结束,鼓励更多自然语言处理研究

者评估实际世界的影响。

2.影响评估

有许多评估自然语言处理系统的方法。大多数评估涉及在数据集或场景的测试集上

运行几个系统(包括基线),并评估自然语言处理系统在测试集上的表现如何。此类

评估最常使用自动指标进行,例如分类的精确率和召回率、文本生成的BLEU分数

(Papinenietal.2002)以及(最近)使用LLM作为评判者(Zhengetal.2023)。一

些研究使用人工评估;最常见的形式是要求人类受试者对输出进行评分或注释输出

中的问题(Reiter2025)。人工评估也可以是外在的(JonesandGalliers1995),这

涉及衡量自然语言处理系统对帮助用户完成某事的影响,例如做出良好的临床决策

(Portetetal.2009)。

这样的评估在推动语音识别和机器翻译等核心NLP技术的发展方面非常成功

(LibermanandWayne2020)。但是,它们并不能完全理解NLP系统在复杂现实世

界应用中的工作效果。此外,研究人员可能会以不实际增加现实世界效用的方式优

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档