Ticket-Bench:多语言和区域化代理评估的起点.pdfVIP

  • 1
  • 0
  • 约3.47万字
  • 约 12页
  • 2026-02-26 发布于北京
  • 举报

Ticket-Bench:多语言和区域化代理评估的起点.pdf

Ticket-Bench:多语言和区域化代理评估的起点

ThalesSalesAlmeidaJoãoGuilhermeAlvesSantos

InstituteofComputing(IC)InstituteofComputing(IC)

StateUniversityofCampinasStateUniversityofCampinas

MaritacaAITropicAI

TropicAI

ThiagoLaitzGiovanaKercheBonás

InstituteofComputing(IC)InstituteofComputing(IC)

StateUniversityofCampinasStateUniversityofCampinas

本MaritacaAIMaritacaAI

译TropicAITropicAI

1

vAbstract

7

7大型语言模型(LLMs)越来越多地被部署为任务导向型代理,其成功取决

4

4于它们在现实的多语言条件下生成准确函数调用的能力。然而,现有的代理

1.评估大多忽略了文化和语言多样性,通常依赖于单语种或简单翻译的基准

9测试。我们引入了Ticket-Bench,在任务导向型场景中用于多语言代理评估

0

5的基准测试。Ticket-Bench模拟了六个主要语言——葡萄牙语、英语、西班

2牙语、德语、意大利语和法语——中的足球票务购买领域,使用本地化的球

:

v队、城市和用户资料来提供更高的现实感。我们对广泛的商用和开源LLMs

i

x进行了评估,测量了跨语言的函数调用准确性和一致性。结果显示,以推理

r为导向的模型(例如GPT-5,Qwen3-235B)在性能上占据主导地位,但仍

a

表现出显著的跨语言差异。这些发现强调了需要文化意识强且多语言的基

准测试来指导稳健LLM代理的发展。

1介绍

大型语言模型(LLMs)已经迅速从单纯的文本生成器演进为能够通过调用函数和使用工具

来协调实际操作的代理[18,22]。这一范式转变推动了LLMs在各种数字助手和任务自动化

平台中的采用,在这些平台上,解释用户请求并触发适当的操作至关重要[11,14]。

当前研究中的一个关键空白是缺乏多语言、文化意识的基准来评估功能调用。现有工具使用

和代理性能的评估涵盖了重要的内容,但主要是以英语为中心[6,7,16,19]。在一般任务完

成和信息检索方面相关的努力扩展到多种语言[9,13],然而它们通常依赖于单语或简单翻译

的数据集。在实际部署中,用户会使用多种语言与助手进行交流,并引用特定地区的实体,

这些实体影响模型的交互方式,并可能影响模型执行功能调用的效果。如果没有反映这种语

言和文化本地化的基准,我们就无法可靠地评估——或者改进——模型规划并完成不同地区

真实任务的能力。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档