GenEscape:层级多智能体密室逃脱谜题生成.pdfVIP

  • 4
  • 0
  • 约2.88万字
  • 约 9页
  • 2025-10-16 发布于北京
  • 举报

GenEscape:层级多智能体密室逃脱谜题生成.pdf

GenEscape:层级多智能体密室逃脱谜题生成

MengyiShanBrianCurlessIraKemelmacher-ShlizermanSteveSeitz

UniversityofWashington

Seattle,WA,USA

{shanmy,curless,kemelmi,seitz}@

Abstract

本我们挑战文本到图像的模型,生成视觉吸引人、逻辑严

译密且智力刺激的逃房谜题图像。基础图像模型在空间

关系和可操作性推理方面存在困难,我们提出了一种

中分层多代理框架,将此任务分解为结构化的阶段:功能

2设计、符号场景图推理、布局合成和局部图像编辑。专

v

9门的代理通过迭代反馈协作,以确保场景视觉上连贯图1.四个协作代理共同工作,通过构建场景图和布局草

3且功能上可解。实验表明,代理协作在保持视觉质量的

8图以生成面向写实图像的逻辑严密且视觉吸引人的密室逃脱

1同时,提高了输出的质量,在解题性、避免捷径和可操谜题。

2.作性清晰度方面有所改进。

6

0觉信号。

5

21.介绍我们提出了一种新颖的多智能体[11,21,29]交互

:

v框架用于密室逃脱图像生成。如图1所示,每个智能体

i逃室是一种设计为互动谜题的环境,玩家必须探

x通过迭代通信和优化为场景的一个特定方面(谜题设

r索一个封闭的场景,以精确的顺序操作物体,并最终离

a计、物体放置、空间一致性或视觉可操作性验证)做出

开房间。我们用设计和构建二维逃室图像谜题的任务

贡献。这种劳动分工使得系统能够以模块化的方式推

来挑战现代视觉语言模型(VLM)。虽然这些模型生成

理谜题结构和对象语义而不牺牲视觉质量。

了具有审美吸引力的图像[2,12,15,20],但它们在处

我们的贡献总结如下:

理需要精细空间关系、物理功能推理或多步骤功能连

•我们提出了生成物理上真实且照片级逼真的密室逃

贯性的复杂场景时遇到了困难。

脱谜题图像的新任务。

一个设计良好的密室逃脱谜题必须满足两个关键

•我们提出了一种多智能体协作系统,该系统通过文

标准:它必须是可解的,这意味着物体的功能形成了一

本、符号和视觉信号的多层次反馈分层构建图像。

连串连贯且逻辑严谨的动作;并且它必须提供足够的

视觉线索来引导玩家走向预期的解决方案。这不仅需

2.相关工作

要准确放置物体,还需要经过精心设计的视觉效果通

过空间关系和视觉强调来支持人类推理。传统的视觉提示优化。提示优化是一种无需更新权

文档评论(0)

1亿VIP精品文档

相关文档