大型语言模型能玩 Ô Ăn Quan 吗? 多步规划与决策的研究-计算机科学-大语言模型-决策制定-博弈论人工智能.pdfVIP

大型语言模型能玩 Ô Ăn Quan 吗? 多步规划与决策的研究-计算机科学-大语言模型-决策制定-博弈论人工智能.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大型语言模型能玩ÔĂnQuan吗?

多步规划与决策的研究

SangQuangNguyen,KietVanNguyen,Vinh-TiepNguyen,

ThanhDucNgo,NganLuu-ThuyNguyen,Duy-DinhLe

UniversityofInformationTechnology,HoChiMinhCity,Vietnam

VietnamNationalUniversity,HoChiMinhCity,Vietnam

sangnq.19@.vn

{kietnv,tiepnv,thanhnd,ngannlt,duyld}@.vn

摘要—在本文中,我们通过传统的越南棋盘游戏ÔĂn(人格),以模拟不同的策略,并评估大语言模型在动态

Quan来探讨大型语言模型(LLMs)的规划和决策能力。这环境中进行计划、推理和适应的能力。通过利用ÔĂn

本个游戏涉及一系列的战略令牌移动和捕获,为评估LLMs的决Quan的规则和结构,我们可以分析大语言模型基于游

策能力和战略能力提供了一个独特的环境。具体来说,我们开

译戏状态做出决策的方式,评估它们处理短期和长期规划

发了各种不同的代理人格,从激进型到防御型,并使用ÔĂn

中Quan游戏作为测试平台来评估不同策略下的LLM性能。通的能力,并确定其整体战略思维。

2过使用像Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct本文旨在通过设计一系列实验来弥补这一差距,

v

1和Llama-3.3-70B-Instruct这样的模型进行实验,我们旨在使用的模型从小型的Llama-3.2-3B-Instruct到大型的

1了解这些模型如何执行战略决策、规划行动以及管理动态游戏状Llama-3.1-8B-Instruct和Llama-3.3-70B-Instruct。目标

7态。结果将为LLMs在推理和策略方面的优势和劣势提供洞见,

3是评估它们在战略多智能体环境中的表现,特别关注它

0.有助于更深入地理解它们的总体能力。们参与ÔĂnQuan游戏的能力——这是一种传统的越

7IndexTerms—大型语言模型,决策制定,战略规划,自

0然语言处理应用,博弈论人工智能南棋盘游戏,结合了回合制策略、资源管理和预见性元

5素。此外,本研究还将考察采用不同人格设定对模型决

2

:I.介绍策的影响,并评估这些模型是否能够适应动态的游戏环

v

i大型语言模型(LLMs)如GPT[1]、Llama[2]–[4]境调整其策略。

x

r和Gemini[5]在各种自然语言理解和生成任务中展现

a

了卓越的性能。尽管它们在处理翻译[6],[7]、总结[8]II.相关工作

和问题回答[9]等任务的能力已被广泛研究。大多数现决策在互动环境中的研究一直是人工智能(AI)和

有的游戏测试平台侧重于不完美信息游戏(例如,狼博弈论的重要领域。此前的研究探索了多种用于建模和

人[10],[11]、阿瓦隆[12]、间谍fall[13])或高度依赖欺评估战略决策的方法,从传统的博弈理论[14]到现代

骗和虚张声势的

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档