问题链:引导语言模型中的多模态好奇心.pdfVIP

问题链:引导语言模型中的多模态好奇心.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

问题链:引导语言模型中的多模态好奇心

NimaIjiKiaDashtipour

EdinburghNapierUniversityEdinburghNapierUniversity

Edinburgh,UKEdinburgh,UK

napier.ac.ukk.dashtipour@napier.ac.uk

2025年8月8日

本ABSTRACT

译大型语言模型(LLMs)的推理能力通过诸如链式思维和显式的逐步解释等方法得到了显著

中提升。然而,这些改进尚未完全过渡到多模态环境中,在这种环境中,模型必须在与复杂现

实环境互动时主动决定使用哪些感官模式,如视觉、音频或空间感知。

1

v本文介绍了问题链(CoQ)框架,这是一种好奇心驱动的推理方法,鼓励多模态语言模型动

0态生成关于其周围环境的目标性问题。这些生成的问题引导模型选择性地激活相关模式,从

5

3而收集必要的关键信息以进行准确的推理和响应生成。

4我们在一个新型的多模态基准数据集上评估了我们的框架,该数据集由WebGPT、ScienceQA、

0

.AVSD和ScanQA数据集集成而成。实验结果表明,我们的CoQ方法显著增强了基础模型有

8

0效识别和整合相关感官信息的能力。这导致推理过程的准确性、可解释性和与各种多模态任

5务的一致性得到提升。

2

:

v

i1介绍

x

r

a大型语言模型(LLMs)在最近的进展显著提升了它们的推理能力,主要通过诸如思维链(CoT)[1]等技术实

现,这些技术鼓励模型在提供答案之前明确生成中间推理步骤。这些方法明显提高了模型输出的可解释性和

准确性,特别是对于文本推理任务而言。然而,尽管有这些进展,当前的模型主要仍然局限于单一模态、基

于文本的交互,并且往往忽视了现实环境中存在的丰富多模态背景。

人类推理本质上整合了多种感官模态,如视觉、听觉、空间和文本,以构建对复杂场景的连贯解释。例如,在

穿越繁忙街道时,人类会同时解读来自交通标志的视觉线索、来自车辆噪音的听觉信息、周围建筑的空间意

识以及导航应用中的文字指令。这种全面的多模态推理不仅使人类能够准确响应,还能通过将注意力导向相

关的感官渠道来主动寻找缺失的信息。

相比之下,现有的多模态语言模型(MLLMs)通常将除文本以外的其他模态视为辅助输入,并被动地将其融

入到推理过程中。这种被动的模态整合限制了模型动态确定理解并处理依赖上下文的任务所需的额外感官信

息的能力。因此,在需要主动感知探索的实际、动态的真实世界场景中,它们的应用性和有效性显著降低。

为了克服这些限制,本文提出了一种新颖的方法——问题链(CoQ),专门设计用于引导多模态语言模型主动

生成好奇心驱动的问题,动态识别并参与相关的感知模式。这种主动提问机制使模型能够自主决定应激活哪

些模态(视觉、音频、空间知觉等)来从其环境中收集必要信息。因此,CoQ框架代表了超越被动多模态整

合方法的重大进步,通过促进积极的、有针对性的感觉探索,使其推理过程与自然的人类认知更加一致。我

APREPRINT-2025年8月8日

图1:问题链(CoQ)框架在多模态推理中的示例。给定一个自然语言提示,模型生成一系列好奇心驱动的问

题,每个问题都映射到特定的感知任务(例如,目标检测、语音转文

您可能关注的文档

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档