- 4
- 0
- 约2.88万字
- 约 9页
- 2025-10-16 发布于北京
- 举报
GenEscape:层级多智能体密室逃脱谜题生成
MengyiShanBrianCurlessIraKemelmacher-ShlizermanSteveSeitz
UniversityofWashington
Seattle,WA,USA
{shanmy,curless,kemelmi,seitz}@
Abstract
本我们挑战文本到图像的模型,生成视觉吸引人、逻辑严
译密且智力刺激的逃房谜题图像。基础图像模型在空间
关系和可操作性推理方面存在困难,我们提出了一种
中分层多代理框架,将此任务分解为结构化的阶段:功能
2设计、符号场景图推理、布局合成和局部图像编辑。专
v
9门的代理通过迭代反馈协作,以确保场景视觉上连贯图1.四个协作代理共同工作,通过构建场景图和布局草
3且功能上可解。实验表明,代理协作在保持视觉质量的
8图以生成面向写实图像的逻辑严密且视觉吸引人的密室逃脱
1同时,提高了输出的质量,在解题性、避免捷径和可操谜题。
2.作性清晰度方面有所改进。
6
0觉信号。
5
21.介绍我们提出了一种新颖的多智能体[11,21,29]交互
:
v框架用于密室逃脱图像生成。如图1所示,每个智能体
i逃室是一种设计为互动谜题的环境,玩家必须探
x通过迭代通信和优化为场景的一个特定方面(谜题设
r索一个封闭的场景,以精确的顺序操作物体,并最终离
a计、物体放置、空间一致性或视觉可操作性验证)做出
开房间。我们用设计和构建二维逃室图像谜题的任务
贡献。这种劳动分工使得系统能够以模块化的方式推
来挑战现代视觉语言模型(VLM)。虽然这些模型生成
理谜题结构和对象语义而不牺牲视觉质量。
了具有审美吸引力的图像[2,12,15,20],但它们在处
我们的贡献总结如下:
理需要精细空间关系、物理功能推理或多步骤功能连
•我们提出了生成物理上真实且照片级逼真的密室逃
贯性的复杂场景时遇到了困难。
脱谜题图像的新任务。
一个设计良好的密室逃脱谜题必须满足两个关键
•我们提出了一种多智能体协作系统,该系统通过文
标准:它必须是可解的,这意味着物体的功能形成了一
本、符号和视觉信号的多层次反馈分层构建图像。
连串连贯且逻辑严谨的动作;并且它必须提供足够的
视觉线索来引导玩家走向预期的解决方案。这不仅需
2.相关工作
要准确放置物体,还需要经过精心设计的视觉效果通
过空间关系和视觉强调来支持人类推理。传统的视觉提示优化。提示优化是一种无需更新权
您可能关注的文档
- ARAG:代理检索增强生成用于个性化推荐.pdf
- CycleDistill:使用 大型语言模型通过循环蒸馏进行机器翻译的自举过程.pdf
- UltraAD:通过少量样本 CLIP 适应进行细粒度超声异常分类.pdf
- 考虑固定和移动充电器的混合充电站规划与运营强化学习.pdf
- 舞动聊天:大型语言模型引导的音乐到舞蹈生成.pdf
- MLOps 与微服务:海事领域的案例研究.pdf
- 学习感知相关的时域包络形态变换.pdf
- 伊奥拉·沃克:一种用于音乐创作的移动脚步检测系统.pdf
- 语言狼人杀:通过语音化的代理狼人游戏框架吸引用户参与.pdf
- 面向患者特定的部分点云到表面补全在图像引导的肝介入术中从术前到术中的配准.pdf
原创力文档

文档评论(0)