多模态大模型评测方案.pptxVIP

下载本文档

1
0
约3.41千字
约 21页
2025-12-24 发布于北京
举报
版权申诉

多模态大模型评测方案.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多模态大模型评测方案

一.多模态大模型背景二.多模态大模型对抗攻击三.多模态大模型越狱攻击四.多模态大模型测评

图生文任务(1)基于十亿尺度参数的LLM，这是以往模型所不具备的。(2)MLLM使用新的训练范式来释放其全部潜力，例如使用多模态指令调优来鼓励模型遵循新的指令多模态大模型，现在一般指多模态大语言模型(MultimodalLargeLanguageModel,MLLM)。基于LLM的模型，具有接收、推理和输出多模态信息的能力梗指南(doge看手相(doge选西瓜(doge

编码器将原始信息(如图像或音频)压缩成更紧凑的表示形式。模态接口用于对齐不同的模态。在预训练的视觉编码器和LLM之间引入一个可学习的连接器（编码器输出的特征被转换为token，并在发送到LLM之前与文本token连接）。在其他模型的帮助下将图像翻译成文本，然后将文本发送给LLM。一个典型的LLM可以抽象为三个模块，即预训练的模态编码器、预训练的LLM和连接它们的模态接口.视觉编码器预训练LLMMLLM架构

预训练的主要目的是对齐不同的模态，学习多模态的世界知识。预训练阶段通常需要大规模的文本配对数据，例如caption。指令调优的目的是教模型更好地理解用户的指令并完成所需的任务。对齐调优更常用于模型需要与特定的人类偏好保持一致的场景，例如较少出现幻觉、越狱。一个MLMM要经历三个阶段的训练，即预训练、指令调优和对齐调优。每个阶段需要不同类型的数据，实现不同的目标代表性的MLLMs

视觉模态图像损坏：对图像的一系列应用扭曲，包括噪声、模糊、天气影响和数字扭曲对抗样本文本模态Character-level：TextBugger、DeepWordBug、Pruthi。Word-level:BertAttack、TextFooler、Pwws。Setence-level:StressTest、CheckList、Input-reductionSemantic-level...木桶理论：视觉模态的引入增加了攻击面视觉模态、文本模态均可以用于攻击基于LLaVA-1.5的对抗攻击示例

现有的MLLM都遵循类似的设计:首先将图像映射到LLM的嵌入空间，然后与常规文本一起处理。这意味着在攻击时可以操纵输入的文本或图像(或两者兼而有之)。攻击图像输入的优点在于从原始图像像素到嵌入的映射是完全可微分的，因此可以利用典型的对抗攻击方法。SSA、CWA、PGD、APGD、CW等各类目标函数：

越狱攻击：一种针对模型的攻击方式，它能够绕过模型的安全机制，诱使模型产生有害输出。这种攻击通常通过精心设计的提示（prompt）来实现，攻击者利用模型的漏洞或配置错误，通过大量的文本输入，迫使模型违反其安全训练响应，从而泄露敏感信息或产生有害内容。越狱攻击失败示例越狱攻击成功示例

Figstep:FigStep将有害内容转换成图像通过排版绕过安全对齐SafetyBench:问题生成-不安全关键字提取-文生图-拼接

Shayegani等人构造对抗样本提高视觉隐蔽性Shayegani等人构造对抗样本提高视觉隐蔽性

Qi等人：基于语料库（输出）优化Niu等人：基于语料库（输入，输出）优化

形式化：模型形式化：越狱攻击目标形式化：视觉对抗提示优化形式化：文本对抗提示优化我们的方法：JailbreakVisionLanguageModelsviaBi-ModalAdversarialPrompt初始化反馈迭代

MiniGPT4越狱数据黑盒越狱数据评估偏见与对抗鲁棒性QA设置下的基线方法失效我们的方法：JailbreakVisionLanguageModelsviaBi-ModalAdversarialPrompt

数据集：基于已有LLM\MLLM安全数据集搜集、清洗、查重得到，包括AdvBench、MM-SafetyBench、SafeBench。额外利用大语言模型补充数据集数据集构建惯例普遍遵循AI厂商的User