Ticket-Bench：多语言和区域化代理评估的起点.pdfVIP

Ticket-Bench：多语言和区域化代理评估的起点.pdf

Ticket-Bench：多语言和区域化代理评估的起点

ThalesSalesAlmeidaJoãoGuilhermeAlvesSantos

InstituteofComputing(IC)InstituteofComputing(IC)

StateUniversityofCampinasStateUniversityofCampinas

MaritacaAITropicAI

TropicAI

ThiagoLaitzGiovanaKercheBonás

InstituteofComputing(IC)InstituteofComputing(IC)

StateUniversityofCampinasStateUniversityofCampinas

本MaritacaAIMaritacaAI

译TropicAITropicAI

中

vAbstract

7大型语言模型（LLMs）越来越多地被部署为任务导向型代理，其成功取决

4于它们在现实的多语言条件下生成准确函数调用的能力。然而，现有的代理

1.评估大多忽略了文化和语言多样性，通常依赖于单语种或简单翻译的基准

9测试。我们引入了Ticket-Bench，在任务导向型场景中用于多语言代理评估

5的基准测试。Ticket-Bench模拟了六个主要语言——葡萄牙语、英语、西班

2牙语、德语、意大利语和法语——中的足球票务购买领域，使用本地化的球

v队、城市和用户资料来提供更高的现实感。我们对广泛的商用和开源LLMs

x进行了评估，测量了跨语言的函数调用准确性和一致性。结果显示，以推理

r为导向的模型（例如GPT-5,Qwen3-235B）在性能上占据主导地位，但仍

表现出显著的跨语言差异。这些发现强调了需要文化意识强且多语言的基

准测试来指导稳健LLM代理的发展。

1介绍

大型语言模型（LLMs）已经迅速从单纯的文本生成器演进为能够通过调用函数和使用工具

来协调实际操作的代理[18,22]。这一范式转变推动了LLMs在各种数字助手和任务自动化

平台中的采用，在这些平台上，解释用户请求并触发适当的操作至关重要[11,14]。

当前研究中的一个关键空白是缺乏多语言、文化意识的基准来评估功能调用。现有工具使用

和代理性能的评估涵盖了重要的内容，但主要是以英语为中心[6,7,16,19]。在一般任务完

成和信息检索方面相关的努力扩展到多种语言[9,13]，然而它们通常依赖于单语或简单翻译

的数据集。在实际部署中，用户会使用多种语言与助手进行交流，并引用特定地区的实体，

这些实体影响模型的交互方式，并可能影响模型执行功能调用的效果。如果没有反映这种语

言和文化本地化的基准，我们就无法可靠地评估——或者改进——模型规划并完成不同地区