多模态大模型在视觉问答中的幻觉诱导与跨模态语义对齐安全.docxVIP

多模态大模型在视觉问答中的幻觉诱导与跨模态语义对齐安全.docx

PAGE2

《多模态大模型在视觉问答中的幻觉诱导与跨模态语义对齐安全》

一、调研概述

1.1调研背景与目的

随着多模态大模型在自动驾驶、医疗影像分析、智能安防等领域的深度部署，视觉问答系统的安全性已上升为人工智能与数据安全交叉研究的核心议题。近年来，攻击者通过在图像中嵌入人眼不可见的对抗性噪声，能够诱导模型输出完全背离图像事实的危险描述，这种“幻觉诱导”攻击严重威胁着敏感场景下的决策可靠性。

尽管基于人类反馈的强化学习（RLHF）被广泛视为提升模型安全对齐的主流策略，但其在抵御跨模态噪声攻击时的有效性尚缺乏系统评估。从市场层面看，企业用户对多模态系统的安全投入意愿正快速攀升，但针对具体防御方案的成本效益比仍存在巨大的信息真空。

本报告旨在系统梳理多模态视觉问答中的幻觉诱导攻击面与防御技术全景，重点评估基于RLHF的安全对齐微调策略在真实对抗环境下的边际效用。研究不仅为安全厂商和研发企业提供技术路线选择的实证依据，更从数据治理、模型审计与合规落地的角度，为行业构建可信任的多模态人工智能基础设施提供决策参考。

1.2研究范围与方法

本次调研聚焦于图像-文本多模态大模型在视觉问答任务中的对抗鲁棒性，具体涵盖三大模块：

第一，攻击技术范畴，重点研究基于Lp范数约束的不可见扰动（如PGD、CW攻击）如何诱导模型生成包含暴力、偏见或虚假诊断的危险文本输出。