GenEscape：层级多智能体密室逃脱谜题生成.pdfVIP

下载本文档

4
0
约2.88万字
约 9页
2025-10-16 发布于北京
举报

GenEscape：层级多智能体密室逃脱谜题生成.pdf

GenEscape：层级多智能体密室逃脱谜题生成

MengyiShanBrianCurlessIraKemelmacher-ShlizermanSteveSeitz

UniversityofWashington

Seattle,WA,USA

{shanmy,curless,kemelmi,seitz}@

Abstract

本我们挑战文本到图像的模型，生成视觉吸引人、逻辑严

译密且智力刺激的逃房谜题图像。基础图像模型在空间

关系和可操作性推理方面存在困难，我们提出了一种

中分层多代理框架，将此任务分解为结构化的阶段：功能

2设计、符号场景图推理、布局合成和局部图像编辑。专

9门的代理通过迭代反馈协作，以确保场景视觉上连贯图1.四个协作代理共同工作，通过构建场景图和布局草

3且功能上可解。实验表明，代理协作在保持视觉质量的

8图以生成面向写实图像的逻辑严密且视觉吸引人的密室逃脱

1同时，提高了输出的质量，在解题性、避免捷径和可操谜题。

2.作性清晰度方面有所改进。

0觉信号。

21.介绍我们提出了一种新颖的多智能体[11,21,29]交互

v框架用于密室逃脱图像生成。如图1所示，每个智能体

i逃室是一种设计为互动谜题的环境，玩家必须探

x通过迭代通信和优化为场景的一个特定方面（谜题设

r索一个封闭的场景，以精确的顺序操作物体，并最终离

a计、物体放置、空间一致性或视觉可操作性验证）做出

开房间。我们用设计和构建二维逃室图像谜题的任务

贡献。这种劳动分工使得系统能够以模块化的方式推

来挑战现代视觉语言模型（VLM）。虽然这些模型生成

理谜题结构和对象语义而不牺牲视觉质量。

了具有审美吸引力的图像[2,12,15,20]，但它们在处

我们的贡献总结如下：

理需要精细空间关系、物理功能推理或多步骤功能连

•我们提出了生成物理上真实且照片级逼真的密室逃

贯性的复杂场景时遇到了困难。

脱谜题图像的新任务。

一个设计良好的密室逃脱谜题必须满足两个关键

•我们提出了一种多智能体协作系统，该系统通过文

标准：它必须是可解的，这意味着物体的功能形成了一

本、符号和视觉信号的多层次反馈分层构建图像。

连串连贯且逻辑严谨的动作；并且它必须提供足够的

视觉线索来引导玩家走向预期的解决方案。这不仅需

2.相关工作

要准确放置物体，还需要经过精心设计的视觉效果通

过空间关系和视觉强调来支持人类推理。传统的视觉提示优化。提示优化是一种无需更新权

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

GenEscape：层级多智能体密室逃脱谜题生成.pdfVIP