大型语言模型能玩 Ô Ăn Quan 吗？多步规划与决策的研究-计算机科学-大语言模型-决策制定-博弈论人工智能.pdfVIP

下载本文档

0
0
约1.88万字
约 7页
2025-07-26 发布于中国
举报
版权申诉

大型语言模型能玩 Ô Ăn Quan 吗？多步规划与决策的研究-计算机科学-大语言模型-决策制定-博弈论人工智能.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大型语言模型能玩ÔĂnQuan吗？

多步规划与决策的研究

SangQuangNguyen,KietVanNguyen,Vinh-TiepNguyen,

ThanhDucNgo,NganLuu-ThuyNguyen,Duy-DinhLe

UniversityofInformationTechnology,HoChiMinhCity,Vietnam

VietnamNationalUniversity,HoChiMinhCity,Vietnam

sangnq.19@.vn

{kietnv,tiepnv,thanhnd,ngannlt,duyld}@.vn

摘要—在本文中，我们通过传统的越南棋盘游戏ÔĂn（人格），以模拟不同的策略，并评估大语言模型在动态

Quan来探讨大型语言模型（LLMs）的规划和决策能力。这环境中进行计划、推理和适应的能力。通过利用ÔĂn

本个游戏涉及一系列的战略令牌移动和捕获，为评估LLMs的决Quan的规则和结构，我们可以分析大语言模型基于游

策能力和战略能力提供了一个独特的环境。具体来说，我们开

译戏状态做出决策的方式，评估它们处理短期和长期规划

发了各种不同的代理人格，从激进型到防御型，并使用ÔĂn

中Quan游戏作为测试平台来评估不同策略下的LLM性能。通的能力，并确定其整体战略思维。

2过使用像Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct本文旨在通过设计一系列实验来弥补这一差距，

1和Llama-3.3-70B-Instruct这样的模型进行实验，我们旨在使用的模型从小型的Llama-3.2-3B-Instruct到大型的

1了解这些模型如何执行战略决策、规划行动以及管理动态游戏状Llama-3.1-8B-Instruct和Llama-3.3-70B-Instruct。目标

7态。结果将为LLMs在推理和策略方面的优势和劣势提供洞见，

3是评估它们在战略多智能体环境中的表现，特别关注它

0.有助于更深入地理解它们的总体能力。们参与ÔĂnQuan游戏的能力——这是一种传统的越

7IndexTerms—大型语言模型，决策制定，战略规划，自

0然语言处理应用，博弈论人工智能南棋盘游戏，结合了回合制策略、资源管理和预见性元

5素。此外，本研究还将考察采用不同人格设定对模型决

:I.介绍策的影响，并评估这些模型是否能够适应动态的游戏环

i大型语言模型（LLMs）如GPT[1]、Llama[2]–[4]境调整其策略。

r和Gemini[5]在各种自然语言理解和生成任务中展现

了卓越的性能。尽管它们在处理翻译[6],[7]、总结[8]II.相关工作

和问题回答[9]等任务的能力已被广泛研究。大多数现决策在互动环境中的研究一直是人工智能（AI）和

有的游戏测试平台侧重于不完美信息游戏（例如，狼博弈论的重要领域。此前的研究探索了多种用于建模和

人[10],[11]、阿瓦隆[12]、间谍fall[13]）或高度依赖欺评估战略决策的方法，从传统的博弈理论[14]到现代

骗和虚张声势的

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大型语言模型能玩 Ô Ăn Quan 吗？多步规划与决策的研究-计算机科学-大语言模型-决策制定-博弈论人工智能.pdfVIP