通过对比触发学习实现MLLM具身决策的视觉后门攻击
论文原始标题:Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
论文作者:Authors: Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang
原始摘要:Multimodal large language models (MLLMs) have advanced embodied agents by enabling direct perception, reasoning, and planning task-oriented actions from visual inputs. However, such vision driven embodied agents open a new attack surface: visual backdoor attacks, where the agent behaves normally until a visual trigger appears in the scene, then persistently executes an attacker-specified multi-step policy. We introduce BEAT, the first framework to inject such visual backdoors into MLLM-based embodied agents using objects in the environments as triggers. Unlike textual triggers, object triggers exhibit wide variation across viewpoints and lighting, making them difficult to implant reliably. BEAT addresses this challenge by (1) constructing a training set that spans diverse scenes, tasks, and trigger placements to expose agents to trigger variability, and (2) introducing a two-stage training scheme that first applies supervised fine-tuning (SFT) and then our novel Contrastive Trigger Learning (CTL). CTL formulates trigger discrimination as preference learning between trigger-present and trigger-free inputs, explicitly sharpening the decision boundaries to ensure precise backdoor activation. Across various embodied agent benchmarks and MLLMs, BEAT achieves attack success rates up to 80%, while maintaining strong benign task performance, and generalizes reliably to out-of-distribution trigger placements. Notably, compared to naive SFT, CTL boosts backdoor activation accuracy up to 39% under limited backdoor data. These findings expose a critical yet unexplored security risk in MLLM-based embodied agents, underscoring the need for robust defenses before real-world deployment.
翻译标题:通过对比触发学习实现MLLM具身决策的视觉后门攻击
翻译摘要:多模态大语言模型(MLLM)通过从视觉输入中直接进行感知、推理和规划任务导向动作,推动了具身智能体的发展。然而,这种以视觉驱动的具身智能体引入了一个新的攻击面:视觉后门攻击,其中智能体在场景中出现视觉触发器前行为正常,但一旦看到触发器,就会持续执行攻击者指定的多步骤策略。我们引入了 BEAT,这是第一个通过在环境中使用物体作为触发器将视觉后门注入 MLLM 基础的具身智能体的框架。与文本触发器不同,物体触发器在视角和光照条件下变化很大,使其难以可靠植入。BEAT 通过构建涵盖多样场景、任务和触发器放置的训练集,使智能体暴露于触发器变化,并引入两阶段训练方案(首先进行监督微调(SFT),然后进行我们提出的对比触发学习(CTL))来解决这一挑战。CTL 将触发器识别形式化为存在触发器和无触发器输入之间的偏好学习,明确地尖锐化决策边界,以确保后门激活。在各种具身智能体基准和 MLLM 上,BEAT 实现了高达 80% 的攻击成功率,同时保持了强大的良性任务性能,并能可靠地泛化到分布外触发器放置。值得注意的是,与 naive SFT 相比,CTL 在有限的后门数据下将后门激活准确率提升了 39%。这些发现揭示了 MLLM 基础具身智能体中一个关键且未被探索的安全风险,强调了在真实部署前建立稳健防御的必要性。
智能问答:
Q1: 这篇论文试图解决什么问题?
该论文旨在揭示并解决多模态大语言模型(MLLM)驱动的具身智能体在视觉输入下所面临的视觉后门攻击风险。具体而言,论文关注以下核心问题:
问题定义:当具身智能体依赖视觉信号直接进行感知、推理与动作规划时,攻击者可通过在环境中放置特定物体(如一把刀、一个花瓶)作为视觉触发器,使智能体在正常任务执行过程中一旦“看到”该物体,便静默切换至攻击者预设的多步恶意策略。这种攻击方式传统文本触发器难以实现,且此前在MLLM-based具身决策领域未被系统研究。
关键挑战:
视觉触发器外观高度可变:同一物体在不同视角、光照、遮挡条件下呈现差异巨大,导致触发信号不稳定。
多步策略持续性:攻击不仅需要一次误动作,而是要求智能体在触发后持续执行多条连贯的恶意动作,直至达成攻击者目标。
隐蔽性要求:模型在触发器未出现时必须保持与正常模型一致的任务表现,避免被用户察觉异常。
论文贡献:
提出首个端到端视觉后门框架BEAT,通过**对比触发学习(Contrastive Trigger Learning, CTL)**将触发检测形式化为偏好学习问题,显式区分“有触发”与“无触发”状态下的动作偏好,从而精准激活后门策略。
构建覆盖多样场景、任务与触发物摆放位置的训练数据,结合两阶段训练(先监督微调SFT,再CTL对比优化),在保持良性任务性能的同时,将攻击成功率提升至最高80%,并将误触发率压至接近零。
在VAB-OmniGibson与EB-ALFRED两大具身基准上验证,BEAT对分布外触发物摆放仍保持92.3%激活率,揭示MLLM具身系统存在严重且被忽视的安全漏洞,呼吁未来部署前必须配套防御机制。
Q2: 有哪些相关研究?
论文在第 2 节“Related Work”中系统梳理了与本研究直接相关的三条主线,并指出既有工作的空白。可归纳为以下三类:
1. 面向具身决策的基础模型
大语言模型(LLM)规划
早期工作利用 LLM 进行高层任务分解,如 SayCan、ReAct、LLM-Planner 等,仅依赖文本状态或需额外视觉模块。
多模态大模型(MLLM)端到端“感知-推理-行动”
RT-1、RT-2、EmbodiedGPT、VisualAgentBench、RDT-1B 等将视觉与语言联合建模,直接输出可执行动作。
近期出现离线/在线强化学习微调(如 EMBODIED-REASONER、Voyager)进一步提升策略表现。
安全研究空白
上述工作聚焦能力增强,对视觉输入带来的对抗性风险几无探讨,为本论文提供动机。
2. 后门攻击(Backdoor Attacks)
CV & NLP 经典后门
BadNets、TrojanNN、Hidden Killer 等使用固定像素块或特定句法模式作为触发器,导致误分类或恶意生成。
LLM/MLLM 后门
Weight-Poisoning、BadChain、BadToken、Prompt-as-Triggers 等通过数据投毒或指令劫持,在文本上下文中植入触发器。
面向智能体的后门(新兴)
TrojanRobot、Watch-out-for-your-agents 首次把后门威胁扩展到文本驱动的 LLM 智能体,但仅针对单步输出或静态文本触发。
空白点
尚无工作研究“视觉对象触发 + 多步持续策略” 的端到端攻击,BEAT 填补了这一缺口。
3. 视觉触发器研究
静态视觉补丁/属性
早期 CV 工作使用角落小方块、带眼镜的人脸等固定图案。
物理对象触发器
TrojanRobot 在机械臂场景放置纸板标语;Ni et al. 在驾驶场景使用红色气球。
这些触发器外观变化小、位置固定,且只引发单步错误决策。
BEAT 的差异化
首次利用日常物体(刀、花瓶)作为动态视角下高度可变的触发器,并要求模型执行平均 9 步的连贯恶意计划,显著提升了攻击复杂度与隐蔽性。
小结
研究方向t代表文献t与 BEAT 的关系
具身 LLM/MLLM 决策tRT-2、EmbodiedGPT、VisualAgentBencht提供基准与 pipeline,但忽略视觉后门风险
文本后门tBadToken、Prompt-as-Triggerst触发器模态不同(文本 vs 视觉),且多为单步
视觉后门(CV/自动驾驶)tBadNets、Ni et al. 红色气球t触发器外观固定,攻击目标简单(分类/单步)
智能体后门(文本触发)tTrojanRobot、Watch-out…t触发器为静态文本或标语,未涉及可变视觉对象
BEAT 首次将可变视觉对象触发与多步策略级后门引入 MLLM 具身决策,揭示了该领域尚未被审视的严重安全漏洞。
Q3: 论文如何解决这个问题?
论文提出 BEAT 框架,通过“数据+训练”双路径协同,解决视觉对象触发器外观多变与多步策略精准激活两大难题。核心思路可拆解为三步:
1. 构造覆盖触发器可变性的专用数据集
目的:让模型充分见识同一物体在不同场景、视角、光照下的外观差异,同时提供“ benign / malicious ”成对监督。
Benign 轨迹
在无触发器的多样化场景里,用现有 MLLM 采集成功完成用户指令的完整轨迹,保证模型基础任务能力。
Backdoor 轨迹
在有触发器的同一批场景中,先让模型正常执行至首次“看到”触发器帧,随后切换为规则型恶意策略继续执行,生成多步攻击演示(如“拾刀→移至客厅→放刀于沙发”)。
Contrastive 成对样本
对每条 backdoor 轨迹,在触发帧保留交互历史不变,仅替换视觉帧为无触发器版本,并采样良性动作;原触发帧对应恶意动作。得到成对偏好数据,显式告诉模型:相同历史下,看到触发器应“偏爱”恶意动作,否则应“偏爱”良性动作。
2. 两阶段训练策略
Stage-1:监督微调(SFT)
数据:合并良性/恶意数据
目标:最大化动作 token 的似然,让模型同时学会正常任务与攻击任务,但边界尚模糊,易误触发。
Stage-2:对比触发学习(CTL)
数据:成对偏好集 + 少量中性 SFT 样本
方法:把触发检测形式化为**直接偏好优化(DPO)**问题,冻结 SFT 模型作为参考,最小化目标,显式拉大“有/无触发”决策边界,实现低假阳性与高召回。
3. 训练-测试一致性保障
数据层面:训练集涵盖 11–49 个场景、16–33 种触发物摆放,模拟视角、遮挡、光照变化。
测试层面:额外构造 5 类分布外场景,验证触发器在未见上下文中仍 92.3% 激活。
指标层面:同时监控 SR、ASR、F1BT,确保能力不减、攻击隐蔽、触发精准。
结果摘要
模型t基准tSR↑tASR↑tF1BT↑
Qwen2-VL-7BtVAB-OmniGibsont18.0t77.9t0.923
InternVL3-8BtEB-ALFREDt26.0t80.8t0.872
平均执行 9 步恶意计划
假触发率 ≈0%
数据量缩减至 10% 时,CTL 仍能将 ASR 提升 5 倍以上
结论
BEAT 通过“多样数据暴露变化 + 对比偏好收紧边界”,首次在 MLLM 具身决策中实现高可变视觉对象触发下的精准、持续、隐蔽后门激活,揭示了该领域尚未被防御的严重安全缺口。
Q4: 论文做了哪些实验?
论文在两大具身基准、三类 MLLM 上共设计 4 组对比训练范式,系统评估 BEAT 的攻击有效性、隐蔽性与泛化性。实验可归纳为以下 5 个维度:
1. 主实验:标准 Benchmark 性能
环境
VAB-OmniGibson(低层动作,20 种原子操作)
EB-ALFRED(高层技能,8 种宏动作)
模型
开源:Qwen2-VL-7B-Instruct、InternVL3-8B
闭源:GPT-4o(仅 SFT,API 不支持图像 DPO)
训练范式
编号t方法t训练数据t目的
AtOriginalt—t基线能力
BtBenign SFTt良性数据t良性上限
CtBEAT w/o CTLt混合数据t验证 naive 混合数据危害
DtBEAT 完整t对比数据t检验 CTL 提升
指标
SR:100 个无触发测试场景中任务成功率
ASR:100 个有触发测试场景中攻击目标达成率
F1BT:触发步“精准激活”F1( penalize 漏检 & 误报)
结果快照
模型t数据集t方法tSR↑tASR↑tF1BT↑
Qwen2-VL-7BtVAB-OmniGibsontBEATt18.0t77.9t0.923
InternVL3-8BtEB-ALFREDtBEATt26.0t80.8t0.872
GPT-4otVAB-OmniGibsontBEAT w/o CTLt23.0t32.4t0.517
结论:CTL 带来 +30% ASR 与 +0.2–0.4 F1BT 的绝对提升,且 SR 不降反升。
Q5: 有什么可以进一步探索的点?
以下方向可在此基础上继续深入,分为“攻击增强”、“防御对策”、“理论理解”与“系统落地”四大类,供后续研究参考:
1. 攻击增强方向
触发器形态扩展
非刚性物体(折叠伞、窗帘)与动态状态变化(开/关、膨胀/收缩)是否仍能稳定激活?
纹理/材质对抗补丁:将触发模式嵌入桌布、墙纸,而非独立物体,进一步降低可见性。
时序触发:需要“连续看到同一物体 N 步”或“按特定顺序看到 A→B”才激活,提高隐蔽性。
多模态协同触发
视觉+声音(如门铃+红球)或视觉+语言(用户无意的口头提示)联合条件,探索跨模态一致性是否更难被检测。
物理世界迁移
在真实机器人(ROS/Franka)上复现,验证真实光照、运动模糊、遮挡下触发成功率,并研究相机参数(曝光、白平衡)对激活的影响。
黑箱 API 下的攻击
目前 GPT-4o 仅做到 SFT。若未来支持图像-DPO,可测试纯查询式数据投毒(不更新权重,仅通过提示或上下文污染)能否植入类似后门。
2. 防御对策方向
触发器检测与擦除
训练通用异常物体检测器,对输入帧实时给出“可疑存在”评分并屏蔽或添加扰动。
开发视觉输入净化(类似 JPEG 压缩、随机裁剪、Diffusion Purification)在保持任务性能的同时破坏触发特征。
策略行为监控
在运行时维护在线行为置信度模型:当动作分布突然偏离历史模式或出现“拾取-搬运-放置”异常序列时触发警报。
引入安全约束检查器(如“刀不应放沙发”)在动作执行前做符号级验证,实现语义防火墙。
鲁棒微调范式
对抗训练:在 benign 数据上加入触发器扰动作为负样本,显式降低模型对触发区域的梯度响应。
对比安全对齐(Safe-CTL):将原 CTL 目标反转,让模型在任何情况下都偏好 benign 动作,从而“覆盖”后门边界。
权重级别诊断
采用激活谱分析(Activation Clustering)或权重稀疏探测检测哪些视觉 token 或 FFN 方向与后门激活强相关,进而进行** surgical pruning**。
Q6: 总结一下论文的主要内容
研究背景
多模态大语言模型(MLLM)使具身智能体能够“端到端”地从视觉输入完成复杂家务任务,但其对视觉信号的依赖也引入了新的攻击面——视觉后门攻击:环境中某个日常物体(如刀、花瓶)一旦被摄像头看到,智能体便静默切换为攻击者预设的多步恶意策略。
核心挑战
视觉触发器随视角、光照、遮挡变化剧烈,难以稳定激活。
攻击需持续多步(平均 9 步)才能达成目标,而非单次误分类。
无触发时必须保持与正常模型一致的任务表现,确保隐蔽。
BEAT 框架
数据构造
采集大量良性轨迹保证基础能力。
采集后门轨迹:看到触发器后立即切换规则型恶意策略,演示完整攻击链。
构建成对对比样本:相同历史、仅视觉帧有/无触发器,对应良/恶动作,形成偏好信号。
两阶段训练
阶段 1 - 监督微调(SFT):混合良/恶数据,让模型先学会两种模式,但边界模糊。
阶段 2 - 对比触发学习(CTL):用 DPO 式偏好目标,显式拉大“有触发-恶动作”与“无触发-良动作”的分布差距,从而精准收紧决策边界。
实验结果
在 VAB-OmniGibson 与 EB-ALFRED 两大基准、开源与闭源 MLLM 上,BEAT 实现最高 80% 攻击成功率(ASR),同时良性任务成功率不降反升;假触发率压至**≈ 0%;在分布外场景仍保持92% 激活率**。
数据量缩减到 10% 时,CTL 较 naive SFT 将 ASR 提升 5 倍以上。
结论与影响
BEAT 首次证明:高可变视觉对象可作为后门触发器,对 MLLM 具身智能体实施持续、隐蔽、跨场景的多步攻击。该研究揭示了视觉-语言-动作一体化范式的关键安全缺口,呼吁社区建立针对性防御机制与评测标准,避免未来真实部署中的物理风险。
阅读全文 →