- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
问题链:引导语言模型中的多模态好奇心
NimaIjiKiaDashtipour
EdinburghNapierUniversityEdinburghNapierUniversity
Edinburgh,UKEdinburgh,UK
napier.ac.ukk.dashtipour@napier.ac.uk
2025年8月8日
本ABSTRACT
译大型语言模型(LLMs)的推理能力通过诸如链式思维和显式的逐步解释等方法得到了显著
中提升。然而,这些改进尚未完全过渡到多模态环境中,在这种环境中,模型必须在与复杂现
实环境互动时主动决定使用哪些感官模式,如视觉、音频或空间感知。
1
v本文介绍了问题链(CoQ)框架,这是一种好奇心驱动的推理方法,鼓励多模态语言模型动
0态生成关于其周围环境的目标性问题。这些生成的问题引导模型选择性地激活相关模式,从
5
3而收集必要的关键信息以进行准确的推理和响应生成。
4我们在一个新型的多模态基准数据集上评估了我们的框架,该数据集由WebGPT、ScienceQA、
0
.AVSD和ScanQA数据集集成而成。实验结果表明,我们的CoQ方法显著增强了基础模型有
8
0效识别和整合相关感官信息的能力。这导致推理过程的准确性、可解释性和与各种多模态任
5务的一致性得到提升。
2
:
v
i1介绍
x
r
a大型语言模型(LLMs)在最近的进展显著提升了它们的推理能力,主要通过诸如思维链(CoT)[1]等技术实
现,这些技术鼓励模型在提供答案之前明确生成中间推理步骤。这些方法明显提高了模型输出的可解释性和
准确性,特别是对于文本推理任务而言。然而,尽管有这些进展,当前的模型主要仍然局限于单一模态、基
于文本的交互,并且往往忽视了现实环境中存在的丰富多模态背景。
人类推理本质上整合了多种感官模态,如视觉、听觉、空间和文本,以构建对复杂场景的连贯解释。例如,在
穿越繁忙街道时,人类会同时解读来自交通标志的视觉线索、来自车辆噪音的听觉信息、周围建筑的空间意
识以及导航应用中的文字指令。这种全面的多模态推理不仅使人类能够准确响应,还能通过将注意力导向相
关的感官渠道来主动寻找缺失的信息。
相比之下,现有的多模态语言模型(MLLMs)通常将除文本以外的其他模态视为辅助输入,并被动地将其融
入到推理过程中。这种被动的模态整合限制了模型动态确定理解并处理依赖上下文的任务所需的额外感官信
息的能力。因此,在需要主动感知探索的实际、动态的真实世界场景中,它们的应用性和有效性显著降低。
为了克服这些限制,本文提出了一种新颖的方法——问题链(CoQ),专门设计用于引导多模态语言模型主动
生成好奇心驱动的问题,动态识别并参与相关的感知模式。这种主动提问机制使模型能够自主决定应激活哪
些模态(视觉、音频、空间知觉等)来从其环境中收集必要信息。因此,CoQ框架代表了超越被动多模态整
合方法的重大进步,通过促进积极的、有针对性的感觉探索,使其推理过程与自然的人类认知更加一致。我
APREPRINT-2025年8月8日
图1:问题链(CoQ)框架在多模态推理中的示例。给定一个自然语言提示,模型生成一系列好奇心驱动的问
题,每个问题都映射到特定的感知任务(例如,目标检测、语音转文
您可能关注的文档
- 触感舒适度:通过与口袋机器人互动降低心率.pdf
- 用于血液疾病诊断的连续多实例学习.pdf
- 旋转 MVPS:带有旋转自然光的多视角光度立体视觉.pdf
- 单体多级重叠 Schwarz 求解器在流体问题中的应用.pdf
- LUST:一种用于多媒体内容中学习主题重要 性跟踪的多模态框架,具有基于分层大语言模型的评分系统.pdf
- Vanilla-Converter:将 Camunda 7 BPMN 模型转换为 Camunda 8 模型的工具.pdf
- 审议推理网络:一种基于预训练语言模型的信念追踪推断不确定性驱动范式.pdf
- 《GB/T 18451.2-2025风能发电系统 风力发电机组功率特性测试》.pdf
- GB/T 18451.2-2025风能发电系统 风力发电机组功率特性测试.pdf
- GB/T 14038-2025气动连接 气口和螺柱端.pdf
- GB/T 46622.1-2025液压传动 螺纹插装阀安装连接尺寸 第1部分:米制螺纹.pdf
- 《GB/T 46622.1-2025液压传动 螺纹插装阀安装连接尺寸 第1部分:米制螺纹》.pdf
- 2025重庆渝海物业管理有限责任公司外包岗位招聘7人备考题库最新.docx
- 岳池县兴隆镇公开招聘社区网格员的备考题库最新.docx
- 2025湖南怀化市靖州县纪委监委选调11人备考题库最新.docx
- 2025年镇原县科技局下属事业单位招聘笔试参考题库附答案.docx
- 贵州国企招聘:2025中国人民财产保险股份有限公司贵州省分公笔试参考题库附答案.docx
- 2025年武汉铁路局集团招聘(180人)笔试参考题库最新.docx
- 2025重庆市应急管理局遴选公务员7人备考题库附答案.docx
- 赣州市人力资源有限公司公开招聘劳务派遣制工作人员备考题库附答案.docx
最近下载
- NFPA 16-2019 泡沫-水喷头和泡沫-水喷雾系统安装标准.pdf VIP
- 乡村振兴背景下2025年职业技能培训体系建设与实施策略报告.docx VIP
- 陈景润(证明哥德巴赫猜想1+2论文)大偶数表为一个素数与一个不超过二个素数乘积之和.pdf VIP
- 食堂食材配送肉类禽类水产品食品配送车辆配备方案.docx VIP
- AVEVA Marine 船舶生产设计培训中文材料 (套料).pdf VIP
- 【冲刺】2025年-云南财经大学120201会计学《802管理学》考研学霸狂刷1000题(名词解释+.doc
- 生物实验技术原理与实践课件讲解.ppt VIP
- stm32嵌入式考试试题及答案.doc VIP
- 2025至2030中国军工电子行业深度分析及发展前景与发展战略报告.docx
- 嵌入式stm32考试试题及答案.doc VIP
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
原创力文档


文档评论(0)