我们应该评估现实世界的影响-计算机科学-自然语言处理-影响评估.pdf

下载文档

0
0
约2.44万字
约 15页
2025-07-26 发布于中国
举报
版权申诉
保障服务

我们应该评估现实世界的影响-计算机科学-自然语言处理-影响评估.pdf

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LastWords

我们应该评估现实世界的影响

EhudReiter

UniversityofAberdeen,UK

e.reiter@abdn.ac.uk

ACL社区对评估NLP系统的实际影响几乎没有兴趣。对ACL文集的结构化调查显

本示，可能只有0.1%的论文包含此类评估；此外，大多数包含影响评估的论文只是粗

略地提到了这些评估，而主要关注指标评估。如果我们认真尝试理解和评估其实际

译影响，NLP技术将更加有用，并被更快地采用。

中

11.介绍

3医学界非常重视评估新药物和其他干预措施实际效果的临床试验；教育和工程领域

9的论文也经常展示新技术的实际影响数据。但在自然语言处理领域，很少有论文（即

0使是工业或应用轨道）会提供已部署系统的实际效果数据。我们经常声称大型语言

7模型和其他NLP技术正在改变世界(Maslejetal.2025)，但我们不愿意提供关于已

0部署的NLP系统如何改善现实世界的关键绩效指标（关键绩效指标）的数据；我将

2下面这类KPI的变化称为影响。

v当然，提供现实世界KPI变化的数据很难，比在测试集上计算基准和指标分数

x或让众包工作者评估输出质量要难得多。衡量影响需要将系统部署到生产使用中，监

a控其对用户的影响，并获得公开发布这些数据的许可。尽管如此，其他领域仍在发

表关于大语言模型现实世界影响的论文，包括医学(Dugganetal.2025)和软件工程

(Pandeyetal.2024)，因此这是可以做到的。

值得注意的是，即使在衡量实际影响时，许多自然语言处理论文也将其视为次

要于指标评估。例如，Maheshwary,Paul,andSohoney(2024)详细描述了基于指标

的评估，然后在一个段落中总结了显示关键绩效指标（KPI）显著改进的实际A/B

影响评估（第4.1节）。类似地，Yoonetal.(2024)详细描述了基于指标的评估，然

后简要提到实际的前后研究展示了非常令人印象深刻的KPI改进。总之，许多自然

Actioneditor:SaifMohammad.Submissionreceived:27April2025;revisedversionreceived:19June2025;

acceptedforpublication::22June2025.

ComputationalLinguisticsVolumevv,Numbernn

语言处理研究人员似乎并不认为实际影响很重要（至少在学术论文中是这样），即使

他们拥有这方面的数据。

在本文中，我首先讨论并给出影响评估的示例。然后通过文献调查表明，在自

然语言处理领域这类论文很少，并以讨论和建议结束，鼓励更多自然语言处理研究

者评估实际世界的影响。

2.影响评估

有许多评估自然语言处理系统的方法。大多数评估涉及在数据集或场景的测试集上

运行几个系统（包括基线），并评估自然语言处理系统在测试集上的表现如何。此类

评估最常使用自动指标进行，例如分类的精确率和召回率、文本生成的BLEU分数

(Papinenietal.2002)以及（最近）使用LLM作为评判者(Zhengetal.2023)。一

些研究使用人工评估；最常见的形式是要求人类受试者对输出进行评分或注释输出

中的问题(Reiter2025)。人工评估也可以是外在的(JonesandGalliers1995)，这

涉及衡量自然语言处理系统对帮助用户完成某事的影响，例如做出良好的临床决策

(Portetetal.2009)。

这样的评估在推动语音识别和机器翻译等核心NLP技术的发展方面非常成功

(LibermanandWayne2020)。但是，它们并不能完全理解NLP系统在复杂现实世

界应用中的工作效果。此外，研究人员可能会以不实际增加现实世界效用的方式优

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

我们应该评估现实世界的影响-计算机科学-自然语言处理-影响评估.pdf