- 1
- 0
- 约3.47万字
- 约 12页
- 2026-02-26 发布于北京
- 举报
Ticket-Bench:多语言和区域化代理评估的起点
ThalesSalesAlmeidaJoãoGuilhermeAlvesSantos
InstituteofComputing(IC)InstituteofComputing(IC)
StateUniversityofCampinasStateUniversityofCampinas
MaritacaAITropicAI
TropicAI
ThiagoLaitzGiovanaKercheBonás
InstituteofComputing(IC)InstituteofComputing(IC)
StateUniversityofCampinasStateUniversityofCampinas
本MaritacaAIMaritacaAI
译TropicAITropicAI
中
1
vAbstract
7
7大型语言模型(LLMs)越来越多地被部署为任务导向型代理,其成功取决
4
4于它们在现实的多语言条件下生成准确函数调用的能力。然而,现有的代理
1.评估大多忽略了文化和语言多样性,通常依赖于单语种或简单翻译的基准
9测试。我们引入了Ticket-Bench,在任务导向型场景中用于多语言代理评估
0
5的基准测试。Ticket-Bench模拟了六个主要语言——葡萄牙语、英语、西班
2牙语、德语、意大利语和法语——中的足球票务购买领域,使用本地化的球
:
v队、城市和用户资料来提供更高的现实感。我们对广泛的商用和开源LLMs
i
x进行了评估,测量了跨语言的函数调用准确性和一致性。结果显示,以推理
r为导向的模型(例如GPT-5,Qwen3-235B)在性能上占据主导地位,但仍
a
表现出显著的跨语言差异。这些发现强调了需要文化意识强且多语言的基
准测试来指导稳健LLM代理的发展。
1介绍
大型语言模型(LLMs)已经迅速从单纯的文本生成器演进为能够通过调用函数和使用工具
来协调实际操作的代理[18,22]。这一范式转变推动了LLMs在各种数字助手和任务自动化
平台中的采用,在这些平台上,解释用户请求并触发适当的操作至关重要[11,14]。
当前研究中的一个关键空白是缺乏多语言、文化意识的基准来评估功能调用。现有工具使用
和代理性能的评估涵盖了重要的内容,但主要是以英语为中心[6,7,16,19]。在一般任务完
成和信息检索方面相关的努力扩展到多种语言[9,13],然而它们通常依赖于单语或简单翻译
的数据集。在实际部署中,用户会使用多种语言与助手进行交流,并引用特定地区的实体,
这些实体影响模型的交互方式,并可能影响模型执行功能调用的效果。如果没有反映这种语
言和文化本地化的基准,我们就无法可靠地评估——或者改进——模型规划并完成不同地区
真实任务的能力。
您可能关注的文档
- CLAIP-EMO:语言监督模型的参数高效适应于野外音视频情感识别.pdf
- 基于 IEEE 802.11p 的 V2V 网络中分布式激光雷达点云共享的软件定义无线电测试平台.pdf
- 几何感知的去中心化 Sinkhorn 方法用于 Wasserstein 重心.pdf
- 从轮流发言到同步对话: 全双工口语模型综述.pdf
- 目标识别与力估计使用 GelSight Baby Fin Ray.pdf
- 单发言人长格式实时 MRI 语音数据集和基准测试.pdf
- 测量说话人去识别系统中的软生物特征泄漏.pdf
- 联邦自适应表决优化技术: 通过掩码最优传输在联邦学习中的精确分布对齐.pdf
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- DB37_T 4904-2025 链式切割水泥土连续墙技术规程.docx VIP
- DB37_T 4903-2025 沥青路面防裂封水粘结层技术规范.docx VIP
- DB37_T 4909-2025 城市轨道交通隧道结构渗漏水治理技术规程.docx VIP
- 2026年河南工业和信息化职业学院单招职业技能考试题库及参考答案详解.docx VIP
- DB37_T 4914-2025 电梯按需维护保养管理技术规范.docx VIP
- DB37_T 4915-2025 氧气瓶充装自动控制技术要求.docx VIP
- 最全汉语水平的考试HSK6级历年真题经典版.pdf VIP
- 博朗-欧乐B_OralB 5000__O3762_5_CHIN使用说明书.pdf VIP
- DB37_T 4918.5-2025 政务信息化项目管理 第5部分:项目和系统编码.docx VIP
- 价值链视角下的山西汾酒公司资金管理问题与优化路径探究11000字【论文】 .docx VIP
原创力文档

文档评论(0)