游戏推理竞技场:通过游戏评估大型语言模型推理能力的框架和基准.pdfVIP

  • 6
  • 0
  • 约1.56万字
  • 约 23页
  • 2025-10-16 发布于北京
  • 举报

游戏推理竞技场:通过游戏评估大型语言模型推理能力的框架和基准.pdf

游戏推理竞技场:通过游戏评估大型语言模型推

理能力的框架和基准

1,21,21,2

LuciaCipolina‑Kun,MariannaNezhurina,andJeniaJitsev

1LAION

2JuelichSupercomputingCenter(JSC),ResearchCenterJuelich(FZJ)

本2025年8月13日

游戏推理场库提供了一个框架,通过在Google的OpenSpiel库中实现的战略棋盘

2

v游戏来评估大型语言模型(LLMs)的决策能力。该框架通过封装多个棋盘和矩阵游戏

8

6并支持不同类型的代理,实现了基于LLM的代理与其他代理(随机、启发式、强化学

3

3习代理等)之间的系统性比较。它集成了通过liteLLM访问API、通过

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档