基于因果推理与大语言模型的视觉语言导航方法研究.pdf

基于因果推理与大语言模型的视觉语言导航方法研究.pdf

摘要

视觉语言导航(Vision-and-LanguageNavigation,VLN)作为具身智能领域的关

键任务,要求智能体整合自然语言指令与视觉感知,在复杂环境中实现自主导航。

尽管近年来VLN研究取得显著进展,但现有方法在泛化性、鲁棒性及高阶推理能力

方面仍面I临挑战。其核心瓶颈在于:多模态信息间的因果关系建模不足,语言理解

与动态推理能力受限,以及缺乏系统性理论框架指导智能体从低阶感知向高阶认

知的演进。这些局限显著制约了VLN系统在未见环境与动态场景中的应用潜力。

为此,本文首次引入皮亚杰

文档评论(0)

1亿VIP精品文档

相关文档