- 3
- 0
- 约3.37万字
- 约 11页
- 2026-03-06 发布于北京
- 举报
3DFroMLLM:仅从
预训练多模态大语言模型生成3D原型
1,∗211
NoorAhmed,CameronBraunstein,SteffenEger,EddyIlg
1UniversityofTechnologyNuremberg
2SaarlandUniversity
Abstract
近期的多模态大型语言模型(MLLMs)展示了从文本和
图像中学习联合表示的强大能力。然而,它们的空间推
理仍然有限。我们介绍了3DFroMLLM,这是一个能够
直接从MLLMs生成3D对象原型的新框架,包括几何
本形状和部件标签。我们的流程是有代理的,包含一个设
译计师、编码员和视觉检查器在改进循环中操作。值得注
中意的是,我们的方法不需要额外的
原创力文档

文档评论(0)