基本信息
原文标题:Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models
原文作者:Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong
作者单位:合肥工业大学计算机科学与信息工程学院(Youze Wang, Wenbo Hu, Richang Hong);清华大学(Yinpeng Dong);中国科学院自动化研究所(Jing Liu);南洋理工大学(Hanwang Zhang)
关键词:多模态大语言模型、对抗攻击、破解攻击、安全对齐、通用对抗样本
原文链接:https://arxiv.org/abs/2506.01307
开源代码:暂无
论文要点
论文简介:随着大语言模型(LLMs)向多模态大语言模型(MLLMs)的快速演进,这些模型已可同时处理文本与视觉等多种信息,极大提升了面对复杂任务的能力。然而,模型在“对齐”安全机制强化的背景下(如输出避免有害内容),依然存在被“破解”(jailbreak)攻击诱导生成不当内容的风险。以往的破解攻击多围绕单一模态(文本或图像)设计,对于多模态交互带来的全新安全隐患关注甚少。
本文针对这一关键空白,提出了一种统一的多模态通用破解攻击框架:通过迭代的“图文交互+迁移策略”,交替优化通用对抗后缀和对抗图片,显著提升了对多种主流公开MLLMs的破解成功率。大量实验证明,该方法不仅有效击穿现有安全对齐机制,还暴露了跨模态信息融合带来的新型安全挑战,彰显了多模态AI系统现实部署前急需从根本上完善安全防护和协议规范。
研究目的:本文旨在系统揭示与探究多模态大语言模型中,由文本-视觉等多模态交互融合导致的安全盲点和新型脆弱性,突破已有攻击仅能依赖单一模态操作的局限。研究目标包括:一是开发一种能跨不同MLLMs、跨多样有害意图通用适用的多模态破解攻击框架;二是通过定量实验证明,图文交互下通用对抗样本相较传统单模策略具有更强的泛化性和实用威胁;三是分析当前主流MLLMs的安全对齐效果与漏洞特征,推动多模态AI安全机制的革新。通过这一创新性研究,作者力图为今后MLLMs的大规模应用与安全标准制定,提供坚实的理论依据与技术预警。
研究贡献:
1. 这项研究为当代多模态大语言模型(MLLMs)的多模态安全对齐提供了有价值的量化见解,探讨了多模态交互以及新旧模态融合带来的风险。
2. 研究提出了一种多模态通用越狱攻击的新方法,利用图文交互在对抗性图像和后缀中分散对抗信息,增强绕过 MLLMs 安全措施的有效性。
3. 针对 17 个不同参数规模的 MLLMs 进行的大量实验验证了所提方法的有效性,并凸显了 MLLMs 中多模态交互融合可能带来的潜在风险。
引言
在过去数年的飞速演化中,大语言模型(LLMs)引领了AI在理解和生成自然语言能力上的重大跃进。进一步发展推动其突破了原本单一的文本处理局限,迈向多模态大语言模型(MLLMs)阶段,使模型能够同时处理图像、语音、视频等多种数据类型,在认知智能和实际应用层面更贴合人类的复杂感知需求。典型如GPT-4V、Claude、Gemini等模型,在引入多模态融合与基于人类反馈的安全对齐机制后,展现了更高层次的对话理解与视觉感知能力。
尽管如此,如何确保这些强大的模型能够避免输出有害、“不符合社会伦理或法律”的内容,一直是AI安全领域的核心挑战。近年来,学界与业界已陆续发现并设计出多种破解(jailbreak)攻击方式,诱导模型避开安全机制,生成本应被禁止的不当内容,如通过在输入后面追加特殊“对抗后缀”,利用模型对非自然语言的“意外”理解能力,或构造视觉领域的通用对抗样本等。上述攻击虽对LLMs安全提出警示,但大多仅聚焦于单一模态输入(如文本)或单模型架构本身特征,鲜少探讨跨模态融合,尤其是视觉-文本交互可能引入的新型安全隐患。
当前主流MLLMs普遍采用将视觉特征映射至语言空间、对齐图文语义的技术路径,实现更细致的用户意图理解。然而,这种机械式“对齐”固然提升了多模态理解能力,却为多模态信息“互相掩护”有害意图埋下了隐患:攻击者只需协调构造对抗图像与后缀,即可令安全检测与防护方式失效,模型生成本应被拒绝的内容。与此同时,由于对抗后缀一旦过长极易被防御机制“截获”,加入图片作为“载体”便能显著缩减后缀长度,提升攻防的隐蔽性和实际攻效。
针对上述挑战,本文立足多模态融合机制,提出全新统一的通用攻防框架,并通过系统实验揭示了当前公开MLLMs在多模态融合场景下的普遍安全短板。通过大量实证,作者不仅显著提高了破解成功率,更为业界和学术界敲响警钟:多模态AI对齐远远不够,必须加速推进基于本质机制的安全设计和多层次防护体系的构建。
相关工作
大语言模型(LLMs)与多模态大语言模型(MLLMs)的快速发展为AI系统带来了划时代的任务解决能力,但其安全机制的不足也成为业界极为关注的隐患。从相关工作梳理来看,当前的主要研究脉络可分为三大类:
首先,MLLMs的构建往往在开放文本大模型基础上,融入视觉等多种模态,通过对齐特征融合、表征映射等提升模型对复杂场景的泛化能力。由于一些领先模型(如GPT-4V)技术细节闭源,学术界逐渐涌现如LLaVA、InstructBLIP、MiniGPT等高质量开源MLLMs。这些模型尽管具有优越的多模态性能,但其对于“生成不良内容”的鲁棒性和安全性,仍处在探索初期。许多应用需求迫切依赖于模型的“安全对齐”,即其输出不会随意回应或完成有害请求。
其次,有关破解LLMs/MLLMs对齐机制(Jailbreaking)的近期研究集中在如何绕过传统文本安全防线。例如,通过贪心-梯度结合的方式生成通用对抗后缀,或利用模型对“非自然语言”的容错机制引诱生成违禁内容。研究发现,文本和视觉领域均存在可迁移、可泛化的攻击,如通过干扰图片使模型文本输出失控等。同时,已有不少对抗样本可实现不同模型、不同参数规模间的迁移攻击,反映了底层对齐机制的泛安全风险。
再次,关于对抗鲁棒性和防御机制,多数研究聚焦于视觉-语言模型对单模输入的异常扰动防护,如对抗样本、数字水印等技术的优化,或从可信感(安全性、公正性、隐私等)综合评价MLLMs。然而,绝大多数防线仍围绕单一模态设计,未能真正防御多模态交互带来的复杂安全风险。实际上,当前MLLMs广泛采用的“视觉信息映射进语言空间”策略本身,就为交互式对抗埋下了隐患——一旦有害意图被图文分摊表达,即可逃逸至安全检测之外。
综上,领域内已有研究虽对破解和防御技术做出诸多探索,但对于图文等多模态交互融合下隐藏的新型脆弱性,乃至针对全局性“通用对抗样本”的跨模型泛化能力,尚缺系统性分析和应对策略。本文正响应这一空白,从多模态交互与统一攻击框架的双重视角,揭示当前MLLMs安全对齐极易被击穿的机制根源,并为今后相关攻防研究打开新视野。
越狱攻击分析
本文提出的多模态通用破解攻击方法,突破了以往针对单一模态构造对抗样本的技术限制,创新性地将攻击信息以“交替协同”方式分布于文本后缀和图像模态之中。其核心思想在于,利用MLLMs对图文交互的高感知能力,迭代优化后缀与图片,使模型在面对多样化有害指令时均无法触发正常防御机制,自动输出本应拒绝的内容。
具体来说,方法流程分为如下几个关键环节:
1. 攻击动因分析与问题建模:作者首先通过对白盒与黑盒场景下现有破解方法的系统实验,发现现有的文本(如GCG攻击)和视觉破解(如Visual-Jailbreak)尽管在各自领域表现良好,但仅靠单模扰动,其跨模型迁移性大幅下降——即在新的或更大型MLLMs上破解成功率显著降低。而简单叠加两种攻击(文本+图片)也不足以抹平二者间的语义鸿沟与融合风险。因此,真正要提升破解效果,必须关注图文交互中“对抗信息渗透与协同”机制。
2. 统一多模态对抗样本生成框架:作者对MLLMs输入输出关系进行系统建模,将破解目标形式化为对所有有害输入query,在特定对抗图片及后缀扰动下最大化输出有害内容的概率。具体,定义损失函数使其逼近目标有害响应的token分布,通过最小化负对数似然达到破解目标。该优化通过交替、协同推进,既能避免单模过拟合,还增强对不同模型架构的泛化适应能力。
3. 交互式优化与迁移策略:与传统方法不同,本方案以交替引导为原则:先利用当前文本后缀优化对抗图片,随后反过来用已优化对抗图片辅导后缀更新——每次均以模型对有害输入的响应概率为优化目标,支持对抗信息在两个模态间自然传递。每一轮迭代里,还采用邻域扰动采样、梯度方差调整等技术,进一步提升对抗样本在泛化空间的有效性与稳定性。算法在多个代理(surrogate)模型上同步训练、最后转移到实际目标模型施攻,显著增强了黑盒环境下的攻击策略。
4. 具体技术实现细节:算法实现中不仅定义了优化过程中的全部操作对象、参数与损失函数,还通过批量数据采样、PGD优化、top-k贪心搜索等主流对抗优化工具,确保攻击样本既具有高效优化速度,又兼具普适攻击力。同时,设计了不同模态下的超参数、步长、采样大小等,适配多种MLLMs架构,为大规模实验与复现实验结果提供保障。
总之,该方法本质上利用了MLLMs对多模态交互的“语义缝隙”,在模型安全防护尚未弥合多模协同弱点前,实现了前所未有的通用破解能力。这种创新型框架为攻防研究树立了新范式,也对AI系统安全提出了更高要求。
实验设计与结果分析
为系统评估所提多模态通用破解攻击的有效性与适用范围,作者设计并开展了大规模、多维度的实验验证,涵盖攻击样本生成、白盒/黑盒模型、不同对齐机制、不同参数规模、多轮迁移泛化等方面。
实验环境与设置实验所用数据集为AdvBench(含520条高危有害指令),训练阶段从中随机选取25条优化对抗后缀和图片,测试阶段在剩余指令中再随机采样100条进行验证,确保样本多样性与泛化考查。攻击评估的主要指标包括:ASR(攻击成功率,判别模型是否不拒绝有害提问)与ASR-G(基于GPT-4对输出完整性评判,衡量是否彻底完成有害任务),后者能识别出表面“拒绝”却实际规避检测的隐蔽输出,是更具“攻防意义”的安全评价标准。实验在4块RTX A40 GPU平台下实现,代码基于PyTorch实现,确保结果可复现。对比方法主要为公开文献中最具代表性的文本破解(GCG)与视觉破解(Visual-Jailbreak),并在LLaVA、MiniGPT、InstructBLIP等17个参数规模/结构不同的主流MLLMs上全面展开攻击比较与交叉迁移。
白盒攻击结果白盒场景下,本文方法在LLaVA-7B、MiniGPT-v2-7B等基线模型上无论在单一指令还是通用攻击(多指令、多模型)场景均达到了极高的破解成功率。例如,在LLaVA-7B上,训练集/测试集的ASR-G分别高达88%/80%,大幅超越GCG和Visual-Jailbreak。尤其值得注意的是,在对抗后缀长度大幅缩短情况下(仅10 tokens,GCG为20 tokens),破解能力依然优于长后缀,对防御机制的“隐蔽性”极强。
黑盒迁移攻击结果在攻防更具实际意义的黑盒迁移场景中,作者采用小规模模型(如LLaVA-7B、MiniGPT-v2-7B)生成的对抗样本,迁移攻击大参量目标模型(如LLaVA-13B、Yi-VL-34B、CogVLM等)。实验结果表明,所提方法的迁移泛化能力显著优于单模态对抗,且对抗后缀更短、图片分担对抗信息,有效减少了被安全机制简单检测过滤的概率。在部分模型(如InstructBLIP-13B),ASR/ASR-G可与强力白盒方法相抗衡,充分暴露了主流多模态模型对复杂统一攻击措施的脆弱性。同时,统计显示模型参数增大可提升一定的鲁棒性,但并未从根本防御住复杂多模交互攻击,表明现有安全对齐机制尚存大量改进空间。
消融与深入分析为验证该方法各模块的重要性,文中设置了“只优化后缀/只优化图片/去除迁移机制”等消融实验,结果表明只有图文协同、迁移强化的统一框架才能持续攻破不同模型;去除任意一模态或迁移机制,效果即大幅下滑。此外,实验还涵盖了多模态“上下文示例攻击”、多轮迭代、真实应用场景等复杂维度,进一步印证了方法的广泛适用性和现实攻效。
现象与解释分析表明,ASR指标仅能判断“是否绕开拒绝词输出”,ASR-G则能识别真实是否彻底完成了有害任务,后者更能衡量攻击对模型的实质突破。大规模实验中,不论模型架构、训练基座、对齐机制,几乎都表现出对这一多模态攻击手段的系统性脆弱,凸显了当前AI安全体系亟需适应多模态时代的技术革新。
综上,作者通过科学严密的大样本实验体系,验证了本文方法对MLLMs破解攻防格局的“改变性影响”,并为下一步机制升级、攻防对抗、法规制定等工作提供了充分事实依据。
讨论与未来展望
论文在实验及现象分析基础上,对多模态破解攻击的深层意义、现实影响、当前限制和未来可能演进路径进行了多方面讨论。
首先,作者强调当前大模型(LLMs)与多模态模型(MLLMs)存在两类安全脆弱性:一方面是内生的架构缺陷,如训练数据偏置、泛化边界模糊等随数据和算法迭代逐渐可修复;更棘手的是由恶意行为者设计并实施的“破解攻击”——此类攻击往往利用模型对外部输入的高鲁棒性及无法彻底隔离的模态映射过程,从本质上击穿了当前的安全对齐策略。本研究揭示了现有对齐防护主要着力于单一模态难以应对图文交互信息协同携带和隐匿攻击信息的新型范式。因此,未来多模态AI模型的安全机制,应当完整识别图文、图-声等多维融合下的异常协同空间,通过机制创新彻底隔断模态间信息的“互相庇护”通道。
其次,作者批判性地分析了当前MLLMs广泛采用的“对齐机制”在多模态空间面临的困境。即便语言空间经过公认的安全对齐,来自非受控视觉空间的“高维”对抗信息依然可与文本后缀协同突破防线,实现多模态响应失控。这一现象在现实装置、实际产品的开放部署环境中极易被攻击者利用,带来难以预料的风险。
为应对上述挑战,论文提出了三类未来防御思路:其一,开发“跨模态对抗微调”机制,直接切中图文交互和协同攻防的根本;其二,设计通用多模数据清洗与动态分析工具,实时检测并过滤潜在的多模对抗信息模式;其三,建立“语义一致性/上下文动态监控”机制,通过全局性判别图文内容间逻辑性与合理性,最大化消减被动绕过防御的风险。
作者也坦率指出,目前所提攻击方法对超大规模模型相较于小规模模型(如LLaVA-7B)存在一定破解率下降,表明模型规模扩展可以部分缓解安全风险,但并非根本解决之道。受限于高性能算力与闭源限制,未来将尝试在更大规模、更多样类型的真实应用环境模型中测试与优化攻击框架。同时,作者期望此项工作能引领学术界和业界共同推动多模态AI攻防机制的根本突破,切实保障AI系统大规模落地应用的安全可控。
论文结论
本文系统提出了针对多模态大语言模型(MLLMs)的通用破解攻击新方法,将基于文本后缀与视觉图片的对抗样本生成融入统一交互优化框架,并通过迁移及多轮迭代技术,显著提升了对主流模型(涵盖17种主流MLLMs)的破解泛化能力与隐蔽性。大量实验定量揭示,即便现有MLLMs声称已完成“安全对齐”,但面对图文协同式通用破解攻击,仍普遍存在结构性安全短板。
论文的核心贡献不仅在于创新的多模态统一攻击框架,更首次以实证方式系统刻画了MLLMs在融合交互维度的全新脆弱性,为未来多模态AI攻防理论、机制创新及安全标准制定提供了坚实支撑。作者倡导在AI多模态化持续深化的背景下,业界和学界应联手推动多层级、多模态协同的全局安全升级,实现AI智能红利的安全、可控和负责任释放。
声明:本文来自安全极客,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。