3DFroMLLM: 仅从 预训练多模态大语言模型生成 3D 原型.pdfVIP

  • 3
  • 0
  • 约3.37万字
  • 约 11页
  • 2026-03-06 发布于北京
  • 举报

3DFroMLLM: 仅从 预训练多模态大语言模型生成 3D 原型.pdf

3DFroMLLM:仅从

预训练多模态大语言模型生成3D原型

1,∗211

NoorAhmed,CameronBraunstein,SteffenEger,EddyIlg

1UniversityofTechnologyNuremberg

2SaarlandUniversity

Abstract

近期的多模态大型语言模型(MLLMs)展示了从文本和

图像中学习联合表示的强大能力。然而,它们的空间推

理仍然有限。我们介绍了3DFroMLLM,这是一个能够

直接从MLLMs生成3D对象原型的新框架,包括几何

本形状和部件标签。我们的流程是有代理的,包含一个设

译计师、编码员和视觉检查器在改进循环中操作。值得注

中意的是,我们的方法不需要额外的

文档评论(0)

1亿VIP精品文档

相关文档