文 | 北京大学人工智能研究院 陈博远 杨耀东

在大模型时代,具身智能正面临智能范式重塑与物理边界急剧扩张的双重挑战。在多模态大模型能力持续提升的背景下,具身智能系统的落地应用既催生了跨域攻击、多模态越狱攻击等新型安全风险,也推动了学术与产业界构建防范新型风险的全链路安全防御体系。这种技术演进与防范策略的协同发展,正持续推动具身智能走向规模化应用的物理安全与伦理可信。

一、具身智能安全现状分析

具身智能带来的生产力解放是发展新质生产力的重要目标。当前,具身智能的技术发展正处于类似于自然语言处理领域BERT时代的技术突破与路径探索时期。但随着领域的繁荣发展与技术持续突破,物理与数字安全风险呈交织叠加态势;模型能力不断提升的同时,安全挑战的严峻程度正急剧增长,繁荣背后潜藏着巨大的安全隐患(如图所示)。

图 随着具身智能发展而被急剧放大的风险

在传统的网络安全框架下,防御的核心目标是保障数据的机密性、完整性与可用性;而在传统的机器人功能安全领域,关注点则局限于机械防碰撞、紧急制动与电磁兼容性。具身智能打破了这两者的界限,导致单一领域的防御手段失效。

具身智能的独特多层耦合架构(即传感器感知、大模型认知、执行器动作)决定了其面临的安全威胁具有前所未有的复杂性。为了构建真正鲁棒且可信的具身智能系统,研究者需要面对以下六个核心问题。

一是物理界限消融:数字攻击跨越物理边界引发新型安全威胁。在传统的软件工程中,恶意代码的输入通常被限制在数字接口。然而,具身智能系统将物理世界本身变成了攻击面。最新研究揭示了环境间接提示注入攻击的存在。当自动驾驶汽车、巡检无人机或家用服务机器人利用摄像头读取物理世界中的路标、海报或涂鸦文字时,视觉语言模型可能会将这些环境文本错误地解析为高优先级的系统控制指令。例如,攻击者无需侵入机器人的网络端口,只需在现实世界中放置写有特定对抗性指令的贴纸,就能让巡检机器人无视禁区,或者让自动驾驶车辆在特定路口突然加速。这种攻击利用了模型对环境信息的过度信任,在充满不可控变量的开放世界中,如何建立能够精准区分良性环境特征与隐蔽于感知中攻击的防火墙,是必须回答的问题。

二是认知能力错位:强执行力与弱安全语义感知的矛盾日益凸显。根据具身智能系统智能体任务规划的安全基准测试结果显示,在涵盖多种潜在危险场景的测评中,根据最新的具身智能安全基准测试(如近期的RoboSafe),当前,最先进的具身基线模型(如基于GPT-4o驱动的智能体)在执行常规安全任务时成功率较高(大于60%),但在面对包含潜在物理破坏性的危险指令时,其准确拒绝率(Accurate Refusal Rate)平均不足10%。这表明,高度智能化的具身智能系统在具备执行复杂物理任务能力的同时,极度缺乏对物理世界危险性的语义感知与拒答能力,导致智能体执行了危险指令,却无法理解该指令在物理世界中可能引发的灾难性后果,这种能力与安全认知的不匹配是当前最大的痛点。

三是内生边界模糊:开放动态环境下的内生安全约束难以向未知场景泛化。开放动态环境下的内生安全需被重新定义与泛化,即从传统工业机器人“预设规则、固定空间”的安全约束,泛化到面对开放世界中长尾、未见过的动态干扰时,模型仍能做出符合物理规律的安全决策。传统工业机器人的安全标准,例如,ISO的防碰撞体系是基于几何空间与机械力学的,即“不接触”或“限制力矩”。但在具身智能的开放世界中,安全不再仅仅是撞击,而是内生地具有极其复杂的语义与感知维度。例如,家庭服务机器人不仅需要规避行人,在执行桌面清洁任务时,它必须辨别玻璃杯与金属锤在物理属性上的显著差异,从而对易碎物品实施轻柔操作。然而,当前基于大模型的推理系统在面对此类长尾、非预设的突发场景时,常表现出泛化鲁棒性不足的问题,甚至可能产生违背真实物理规律的“幻觉”。因此,如何将深度学习模型与经典控制理论中的形式化安全约束深度融合,实现模型内生的安全泛化能力,已成为亟待突破的关键问题。

四是防御机制失效:多模态越狱攻击直击底层物理动作诱发灾难。具身智能系统必须抵御可导致物理伤害的多模态越狱。在纯文本领域,大语言模型的价值对齐技术已较为成熟,能够有效规避如生成危险指令等内容。然而,具身智能系统面临着更为严峻的多模态越狱攻击挑战。研究表明,通过特定的语音对话、角色扮演提示或视觉欺骗,能够轻易绕过具身智能系统的内置安全机制。例如,借助诱导性对话,机器人可能被操纵执行搬运危险化学品、开启燃气阀门或撞击人体等明显违背机器人伦理准则的危险行为。这类攻击利用了自然语言指令与底层物理动作之间的语义失配。其核心挑战在于,如何在计算资源受限的终端机器人上,构建轻量级、多模态融合的价值对齐与意图识别机制,从而防止通用的越狱提示在全局同质化的具身模型中引发灾难性的物理连锁反应。

五是虚实鸿沟显著:从仿真训练到物理部署的零样本迁移存在严重失控风险。虚实迁移中的鸿沟必须跨越,其安全验证需可靠实现。由于在真实世界中大规模采集具身数据成本高昂且伴随物理危险,当前的具身智能策略大量依赖于数字孪生与仿真环境中的训练。然而,仿真环境与真实物理规律之间存在难以消除的鸿沟,包括摩擦系数偏差、传感器噪声差异以及光照变化。在虚拟环境中被证明安全的策略,在零样本迁移到真实硬件时,往往会因为微小的物理规则适配误差而导致策略崩溃。如何建立闭环的物理反馈优化机制、硬件无关的算法框架以及高保真度的数字孪生体系,以彻底打通仿真训练与真实部署之间的安全验证壁垒,是确保落地安全的关键。

六是协作风险级联:多智能体交互缺乏全局动态权限与风险协同感知。多智能体协作需要动态的权限管理与严格的工具安全约束。现代具身智能系统正从单一智能体向多智能体协作演进,由智能体自主调用外部工具、子智能体、机械装置等。当前,系统往往依赖固定的规则引擎,难以进行动态的风险评估。尤为危险的是无限制的工具执行,一旦模型被劫持或出现幻觉,它可能会高频调用危险工具。例如,一个负责物流的智能体如果错误地获得了消防系统控制权,后果将不堪设想。因此,如何在模型上下文协议中实施精细化、分级的工具权限管控,确保任何复杂的任务分解与工具调用都在安全边界内进行,是架构设计的核心。此外,多智能体协作不仅需要精细的权限管控,更需建立全局的风险协同感知机制。单一智能体的幻觉极易通过协作网络引发级联失效,导致整个工作流的安全崩溃。

二、具身智能系统安全治理与评估框架构建

为了系统地回答上述新问题,首先必须对具身智能面临的安全要求进行深度挖掘和思考。当前的趋势是,纯粹的技术架构难以形成共识,必须与国家顶层政策设计、国际标准化发展以及前瞻性的伦理治理深度结合。

(一)国际功能安全与人工智能标准体系的融合演进

全球标准化组织正在加速重构,以适应具身智能带来的非确定性风险,即由模型的“黑盒”特性与概率输出引发的在相同输入下可能产生不同物理动作的不可预测结果(如表所示)。传统的工业机器人安全标准正在经历一次范式转移。

表 具身智能相关国际标准演进概况(部分)

最新发布的标准ISO 10218-1:2025(ANSI/A3 R15.06-2025)进行了具有里程碑意义的更新。该标准全面整合了此前作为独立技术规范存在的ISO/TS 15066,对协作机器人安全应用提出了更细致的指导。值得注意的是,2025版标准在机械与功能安全的主干要求中,正式纳入了网络安全(Cybersecurity)评价维度,标志着国际标准已深刻认识到物理安全与数字安全在具身设备上的不可分割性。

与此同时,电气电子工程师学会(IEEE)正在紧密推进一系列针对生成式与多模态人工智能的标准制定工作。例如,《生成式人工智能系统风险管理标准》(IEEE P3511)、《系统可靠性工程标准》(IEEE P2675.1)以及聚焦伦理设计的培训体系,试图将技术功能性目标与人类道德伦理价值观在研发源头实现系统级的锚定与对齐。

(二)脆弱性多维分类与评估体系要求

基于上述ISO与IEEE标准体系中物理与数字融合的演进趋势,本文提出一个涵盖外生环境、内生意图、模型系统架构以及跨维度交互的脆弱性多维分类体系,作为连接风险现状与后续防御建设的桥梁。

一是外源性风险。源于系统外部动态环境的不可预测性与恶意攻击。要求系统具备极强的鲁棒性,能够抵御传感器欺骗(如针对自动驾驶的GPS信号篡改、操纵LiDAR点云数据)以及环境动态干扰(如光照剧变、遮挡)。

二是内源性风险。源于系统内部物理架构的老化、软件逻辑缺陷以及大模型训练机制固有的认知缺陷。核心要求是能够实时监测并抑制大模型“幻觉”,为大模型的意图层注入安全约束,同时防止生成严重脱离物理规律的运动指令。

三是系统性风险。源于系统内部物理架构的层级耦合、软硬件衔接带来的系统性风险。核心要求是能够实时监测具身智能系统的整体工作状况与一致性,防止级联失效、子系统被劫持带来的安全风险。

四是跨维度风险。源于大模型多模态融合的风险,即内部大模型的逻辑缺陷被外部恶意输入利用。核心要求是系统能够防御间接提示注入和多模态越狱攻击,切断攻击者利用认知层漏洞控制物理底层的路径。

三、具身智能全链路安全建设思路

针对具身智能高度耦合的技术特征,单一的算法和软件补丁已无法满足安全要求,必须构建包含多层安全分级与实现的全链路防御架构。

(一)构筑基础输入与多模态感知防线

作为抵御外部物理与数字威胁的第一道防线,该层的核心是执行严苛的输入过滤与传感器融合交叉校验。

一是多源传感器交叉验证。为了对抗单一传感器的物理欺骗(如LiDAR点云操纵),可以采用先进的传感器融合算法。例如,将视觉数据与毫米波雷达、超声波雷达数据进行实时比对,当某一通道数据出现非自然跳变时,触发异常告警并切换至安全降级模式。

二是边界隔离与LLM加盐防御。必须在逻辑层面维持可信的核心系统指令与不可信的外部输入之间的清晰边界。例如,为了抵御当前开源大模型容易遭受通用越狱提示攻击的弱点,可以在每次会话的系统提示中注入微小且特定的随机变量,提高破解的成本与难度。该机制属于轻量级的推理期安全护栏(Run-time Safety Guardrails),无需重新微调庞大的底层模型。通过在系统提示(Prompt)中动态注入扰动变量,仅会带来毫秒级的推理延迟增加,在计算资源受限的边缘具身端侧具备极高的工程落地可行性。

(二)强化跨模态推理与认知对齐

跨越单纯的数据输入校验,该层旨在构建深度认知对齐机制,核心目标是化解具身智能面临的安全认知缺失与多模态越狱风险。

一是构建跨域知识迁移与多模态语义校验机制。针对具身智能领域物理攻击样本稀缺、异构性强的痛点,不应局限于单一场景的被动防御,而应建立基于“域适应”的主动防御范式。建议构建跨模态语义对齐框架,将通用人工智能领域已积累的海量文本安全知识与对抗防御经验,通过特征映射与迁移学习技术,有效应用至具身控制领域。该机制需重点强化视觉感知与语言指令的深层语义融合,使系统能够在多模态特征空间中,动态识别并过滤隐藏在物理环境背景中的恶意诱导信息,将文本安全能力低成本、高效率地迁移到物理环境安全。

二是建立全过程可解释的认知审计与动态阻断体系。为规避端到端大模型的黑箱决策风险,必须打破输入即执行的线性流程,重构具备可解释性的决策审计链条。系统应强制将过程思维显性化,要求智能体在生成复杂动作序列前,显式展示其逻辑推理路径与因果判断依据。同时,引入独立于主决策模型的监测模块,对推理过程进行实时的逻辑一致性扫描与伦理边界审查。一旦监测到推理逻辑违背基础物理定律或触碰预设的伦理红线,立即触发熔断机制,从而将风险控制在决策产生之初,而非动作执行之后。

(三)落实执行拦截与工具权限动态管控

即使风险越过了前两道防线,执行层的硬性约束也必须确保物理灾难不会发生。

一是MCP工具分级管控。现代多智能体架构中涉及大量的模型上下文协议工具,安全建设必须对这些工具进行严格的风险分级。例如,查询传感器状态属低风险,而控制机械臂高速移动或修改底层固件则属极高风险。对于高风险工具,不能赋予大模型无限制执行权限,必须引入人工确认或形式化规则校验机制。

二是基于因果的动作过滤。任何由大模型生成的动作序列,在下发至底层低级控制器之前,必须经过一个独立的语义与动力学验证模块。该模块结合输出过滤器与世界模型,预测该动作在当前环境下的因果物理状态。如果评估显示存在安全风险,系统将强制进行意图拦截。虽然引入独立的世界模型进行因果预测会增加计算负载,但当前业界正通过轻量化模型与频域计算(如FCNet等架构)降低延迟。实测表明,在保证高拦截率的前提下,单次动作的安全校验处理时间已可压缩至0.002秒以内,能够满足具身智能系统对高频实时控制的严苛要求。

四、深化具身智能安全建设策略建议

立足于具身智能人—机—物深度交融的技术特点及激烈的全球科技竞争态势,针对当前暴露出的风险,提出以下政策治理与产业推进建议。

(一)构建具备交叉学科特征的国家级具身智能安全标准体系

相关政府监管部门与行业协会应迅速牵头,统一当前各种异构硬件、软件平台与多模态算法之间的评估差异。参照最新发布的标准ISO 10218-1:2025中“物理+数字融合”的要求,构建涵盖“本体硬件安全”“多模态交互安全”和“复杂场景应用安全”三位一体的本土标准体系。

建议根据具身智能系统部署的物理场景危险度(如家用场景与国防重工场景),建立具有法律约束力的系统分类分级与安全等级保护制度。对于高风险场景,必须制定专门的具身智能安全基线,强制要求通过特定等级的鲁棒性测试。

(二)确立原则,推行全生命周期的高敏数据治理

具身智能设备在真实物理环境中无休止地漫游与感知,将不可避免地捕获海量的超高精度三维空间数据与生物特征。政策上必须强制约束具身设备对环境的过度感知,在传感器设计准入阶段确立针对隐私的硬性原则。

具体而言,应要求设备在前端感知的微控制单元或传感器芯片内部,直接完成人脸、车牌等高敏感多模态特征的脱敏与匿名化处理,从根本上切断敏感数据向云端大模型训练池的非授权泄露。同时,强制推行抗量子密码学验证与多方安全计算技术,确保全链路交互的机密性。

(三)依托国家算力底座,加速软硬件供应链安全与自主可控

确保具身智能系统及物理执行硬件的供应链安全成为国家战略的核心诉求。建议充分依托国家级智能基础设施,打造端到端的具身智能系统自主研发生态。

政策侧应重点扶持基于国产混合专家系统架构的基础大模型与具身智能系统的深度对齐研究,加速突破底层异构计算框架、自主可控的具身操作系统以及高频核心传感器组件的研发“瓶颈”。打破对国外闭源高仿真平台与底层计算库的长期依赖,防范因硬件层级预埋后门或固件漏洞而引发的具身机器人集群失控。

(四)实施强制性的物理隔离沙盒审查与伦理底线测试

鉴于具身智能系统具备直接的物理破坏潜力,监管机构必须设立针对新型高阶具身智能系统的强制性入市审查机制,例如,引入高度自主决策与复杂规划能力的人形机器人。

在产品推向消费市场之前,制造商必须将产品置于官方认证的、结合高保真数字孪生与真实物理屏障的封闭测试沙盒中,进行穷举式的攻防演练及红蓝对抗。只有那些能够稳定抵御物理对抗扰动、准确理解开放社会常识安全规则,并在多目标伦理冲突中始终将人类生命安全置于最高优先级的具身智能系统,方可被颁发物理空间的部署牌照。

(本文刊登于《中国信息安全》杂志2026年第3期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。