- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
LastWords
我们应该评估现实世界的影响
EhudReiter
UniversityofAberdeen,UK
e.reiter@abdn.ac.uk
ACL社区对评估NLP系统的实际影响几乎没有兴趣。对ACL文集的结构化调查显
本示,可能只有0.1%的论文包含此类评估;此外,大多数包含影响评估的论文只是粗
略地提到了这些评估,而主要关注指标评估。如果我们认真尝试理解和评估其实际
译影响,NLP技术将更加有用,并被更快地采用。
中
11.介绍
v
3医学界非常重视评估新药物和其他干预措施实际效果的临床试验;教育和工程领域
7
9的论文也经常展示新技术的实际影响数据。但在自然语言处理领域,很少有论文(即
5
0使是工业或应用轨道)会提供已部署系统的实际效果数据。我们经常声称大型语言
.
7模型和其他NLP技术正在改变世界(Maslejetal.2025),但我们不愿意提供关于已
0部署的NLP系统如何改善现实世界的关键绩效指标(关键绩效指标)的数据;我将
5
2下面这类KPI的变化称为影响。
:
v当然,提供现实世界KPI变化的数据很难,比在测试集上计算基准和指标分数
i
x或让众包工作者评估输出质量要难得多。衡量影响需要将系统部署到生产使用中,监
r
a控其对用户的影响,并获得公开发布这些数据的许可。尽管如此,其他领域仍在发
表关于大语言模型现实世界影响的论文,包括医学(Dugganetal.2025)和软件工程
(Pandeyetal.2024),因此这是可以做到的。
值得注意的是,即使在衡量实际影响时,许多自然语言处理论文也将其视为次
要于指标评估。例如,Maheshwary,Paul,andSohoney(2024)详细描述了基于指标
的评估,然后在一个段落中总结了显示关键绩效指标(KPI)显著改进的实际A/B
影响评估(第4.1节)。类似地,Yoonetal.(2024)详细描述了基于指标的评估,然
后简要提到实际的前后研究展示了非常令人印象深刻的KPI改进。总之,许多自然
Actioneditor:SaifMohammad.Submissionreceived:27April2025;revisedversionreceived:19June2025;
acceptedforpublication::22June2025.
©2025AssociationforComputationalLinguistics
ComputationalLinguisticsVolumevv,Numbernn
语言处理研究人员似乎并不认为实际影响很重要(至少在学术论文中是这样),即使
他们拥有这方面的数据。
在本文中,我首先讨论并给出影响评估的示例。然后通过文献调查表明,在自
然语言处理领域这类论文很少,并以讨论和建议结束,鼓励更多自然语言处理研究
者评估实际世界的影响。
2.影响评估
有许多评估自然语言处理系统的方法。大多数评估涉及在数据集或场景的测试集上
运行几个系统(包括基线),并评估自然语言处理系统在测试集上的表现如何。此类
评估最常使用自动指标进行,例如分类的精确率和召回率、文本生成的BLEU分数
(Papinenietal.2002)以及(最近)使用LLM作为评判者(Zhengetal.2023)。一
些研究使用人工评估;最常见的形式是要求人类受试者对输出进行评分或注释输出
中的问题(Reiter2025)。人工评估也可以是外在的(JonesandGalliers1995),这
涉及衡量自然语言处理系统对帮助用户完成某事的影响,例如做出良好的临床决策
(Portetetal.2009)。
这样的评估在推动语音识别和机器翻译等核心NLP技术的发展方面非常成功
(LibermanandWayne2020)。但是,它们并不能完全理解NLP系统在复杂现实世
界应用中的工作效果。此外,研究人员可能会以不实际增加现实世界效用的方式优
您可能关注的文档
- SCCRUB: 表面清洁合规机器人利用刷毛技术-计算机科学-人工智能-软体机器人.pdf
- 最小确定性回声状态网络在学习混沌动力学方面优于随机储备池-计算机科学-机器学习-混沌系统-回声状态网络.pdf
- 边缘编解码器:内置轻量级 高保真神经压缩器结合残差向量量化-计算机科学-数据压缩-边缘编码器.pdf
- 基于特征引导的邻域选择用于非专家评估模型预测-计算机科学-可解释人工智能-机器学习.pdf
- RIS-enabled 发射机设计用于联合雷达和通信-计算机科学-集成感知与通信-可重构智能表面-波束模式设计.pdf
- 文档信息提取@合成大模型 25:使用完全合成示例的上下文学习-计算机科学-大语言模型-数据合成-上下文学习.pdf
- 通过信息检索增强基于规则的解释的可解释性-计算机科学-数据驱动的人工智能-可解释人工智能.pdf
- OpenFActScore: 开源原子事实性评估在文本生成中的应用-计算机科学-大语言模型-文本生成.pdf
- 劝说的复杂性结果-计算机科学-机器学习-算法.pdf
- 向量检索系统中的语义确定性评估:嵌入质量评价的新框架-计算机科学-机器学习-向量检索系统.pdf
文档评论(0)