文 | 广州大学网络空间安全学院 李默涵 李金海 孙彦斌 鲁辉;广州大学副校长 田志宏;广州大学网络空间安全学院名誉院长、中国工程院院士 方滨兴

随着人工智能从认知智能迈向具身智能,智能系统开始直接作用于真实物理环境,其安全风险也从数字空间扩展至物理世界,并呈现出不可逆性、实时性与跨域耦合等新特征。传统人工智能安全范式侧重于事前训练约束和事后事故响应,而具身智能的物理行动性使得事前训练无法覆盖所有开放环境风险,事后响应虽能承担事故复盘与机制优化作用,但难以单独承担物理风险的即时防控,如自动驾驶的训练数据无法穷尽所有道路场景,事后响应也无法挽回碰撞事故的损失。因此,运行时安全能力需要显著加强。

基于此,“具身智能保险箍”被提出,其核心在于构建一套伴生于具身行为体的独立、冗余且轻量的运行时安全保障体系,以风险感知、风险量化、风险熔断与软硬件协同为核心能力,实现对智能行为全过程的安全约束。这一体系旨在为具身智能在真实世界中的规模化落地提供关键的运行时安全保障与可行的技术框架参考。

一、具身智能的新形态安全威胁

近年来,大模型推动人工智能由信息处理工具向具备自主决策与环境交互能力的智能体演进,人工智能正从认知智能迈向能够直接执行物理任务的具身智能。智能体逐渐成为现实世界中的执行主体,并获得实质性的物理行动权。随之而来的安全问题,已不仅局限于算法的鲁棒性与输出的正确性,而是演进为融合功能安全、网络安全与人工智能安全的多维交叉领域问题。

这种变化在具身场景中尤为突出。例如,家政服务机器人在家庭环境中可能与儿童、老人或宠物共享空间,其动作不当可能造成碰撞伤害;在人机协作工厂中,协作机器人若识别错误或动作迟滞,则可能引发夹伤、碰撞甚至人身伤亡。同时,具身智能还面临恶意攻击风险。在大模型驱动的任务规划中,攻击者可逐步诱导系统绕过原有安全约束,使其生成包含危险动作的任务序列,例如,将“用刀刺人”纳入执行规划中。此类风险往往在多轮推理和任务规划中逐步累积,一旦显现往往已失去最佳干预时机。

然而,仅依赖具身智能体内部已有安全模块并不足以构成充分保障。一方面,内部安全机制通常与主控系统共享传感器、基座模型等,若传感器被干扰,基座模型出现认知偏差或被诱导,安全模块也可能同步受到影响;另一方面,具身风险常表现为连续逼近安全边界的过程,而非简单的“危险/安全”的二值状态。

因此,类似于汽车的防抱死制动系统或飞机的飞行包线保护,具身智能也需建立一套独立、冗余且轻量的运行时安全机制。在这套机制中,独立,是指安全判定不依赖主任务决策的同一失效前提,以确定性的物理硬约束(如刚性限速)补全大模型概率决策的不确定性,形成安全互补;冗余,是指与主系统安全模块协同运行,常态下保持静默监测,在主系统失控时可接管或熔断执行链路;轻量,意味着不影响系统实时性与可用性,仅在触发确定性风险时实施兜底干预。这种运行时安全能力,正是具身智能进入真实物理世界所必须具备的基础保障。

二、具身智能的运行安全保障及其基础作用

具身智能的安全风险常在任务规划与执行过程中持续累积,并在进入危险状态后迅速转化为不可逆后果。因此,安全保障的关键不仅在于提升模型训练阶段的正确性,更要确保系统在运行过程中始终处于可控状态。

首先,训练阶段的约束无法覆盖真实环境中的全部安全情形。无论是基于规则的安全对齐、强化学习约束,还是任务级安全验证,其前提均建立在有限的数据、场景与行为边界之上。然而,真实物理环境持续变化,人员介入、环境扰动与长尾事件不断出现,任何事前设计都无法穷尽未来的风险组合,安全问题最终仍会在运行过程中暴露。

其次,具身智能的内部安全模块并不等同于最终安全保障。内部安全机制通常依附于主决策链路,与任务规划共享输入、状态与执行基础。当模型出现认知偏差、感知失真或受到攻击诱导时,内部安全模块可能同时受到影响,进而难以在极端情况下保持独立的判断能力。

最后,具身智能的安全风险通常具有连续逼近的特征,而非突发性的二值事件。系统往往先经历速度异常、轨迹偏移、控制裕度下降或风险累积过程,随后才进入显性危险状态。如果安全机制只能在结果出现后触发,则往往已错过最佳干预窗口,通常表现为由风险孕育、边界接近到强制干预再到任务恢复的连续演化过程。具身智能的安全风险并非在碰撞发生瞬间才出现,而是在主控决策持续输出正常指令时便已开始形成并逐步逼近安全边界。因此,独立运行的安全机制通过在边界触发前实施轻度干预,实现风险阻断与任务恢复,体现了运行时安全“旁路监测、底线兜底”的基础作用(如图1所示)。

图1 具身智能的安全风险及保险箍熔断过程示例

因此,具身智能安全需要在事前约束、运行时保障与事后改进协同体系中,进一步强化运行时可控能力,即在主控系统正常工作时保持旁路监测,在风险接近安全边界时实施约束,在必要时直接接管或熔断执行链路。

三、具身智能保险箍——面向运行安全的能力体系

人工智能保险箍的概念最早在2018年出版的《人工智能安全》一书中被提出。在具身智能场景下,可将其进一步细化为:具身智能保险箍是一套面向具身智能运行时安全的技术体系,其核心涵盖风险感知、风险量化、风险熔断与软硬件协同等能力要求。在工程实现上,它表现为一种独立运行、伴生于具身行为体,并具备最终控制权限的安全控制系统。其核心定位是在不干预任务决策的前提下,对行为体的运行过程实施持续监测与安全约束。保险箍通过旁路观测机制,实时获取行为体的感知输入、决策状态与执行输出,并基于独立的安全规则或模型,判断系统是否接近安全边界。当检测到潜在失控趋势时,系统可立即采取限制、修正或接管措施,将可能演化为危险的行为约束在可控范围内。具身智能保险箍的基本结构如下:主控系统负责环境感知、生成决策与动作序列,保险箍则以软硬件独立的方式,对其运行过程实施旁路监测。它不干扰主控系统决策,而是依据风险量化结果实施分级干预,包括告警提示、限速限力、控制接管与强制熔断。风险未越界时维持放行,超过安全阈值后逐级提升干预强度,对执行链路实施最终安全约束(如图2所示)。

图2 具身智能保险箍基本结构

(一)风险感知能力

风险感知是指对风险行为进行独立观测的能力,是保险箍体系的起点,其目标在于识别行为是否正在偏离安全状态。这与智能体自身感知系统不同,保险箍的风险感知必须保持独立性与冗余性,即不依赖行为体内部认知结果,而从外部视角观测其运行状态。

一是风险感知需要实现对多源运行信息的旁路采集。观测对象不仅包括环境感知数据,还应覆盖控制指令、执行器状态、运动轨迹、人与设备之间的空间关系,以及攻击者难以篡改的其他状态信息。例如,通过独立传感器或安全接口监测速度、加速度、力矩变化与接近距离,从多源信息一致性角度识别异常趋势,而非事故发生后再进行判断。

二是风险感知应具备早期识别能力。具身风险往往在行为生成早期即已显现,例如,轨迹抖动、控制振荡或异常加速等现象,这些信号通常早于明显错误结果出现。因此,保险箍需要能够识别“即将失控”的动态征兆,实现从事故检测向失控预测的转变。

三是风险感知还应关注认知—行为失配问题。在端到端模型中,智能体可能在语义理解看似合理的情况下输出危险动作(如识别到人员后仍执行高速运动)。保险箍需通过独立规则或模型判断行为是否符合基本物理与安全常识,以弥补黑盒模型的内部不可观测性。

总体而言,风险感知能力的核心在于不依赖主控模型的自我判断,不等待错误结果显示,而是通过独立观测体系提前识别风险形成过程。支撑该能力的关键技术包括:多模态安全观测和校准、基于物理定律的异常检测与人机交互风险识别技术,以及传感器监测技术。保险箍不仅要监测环境,还要实时监测传感器本身是否可信,防止因数据来源不可靠而导致误判。

(二)风险量化能力

风险量化是指将风险转化为可计算状态的能力。在具身智能中,风险并非由简单的“是否危险”二值判断,而是逐步逼近安全边界的过程(如智能体可能被诱导至高危状态,从而错过最佳干预时机)。此类渐进安全风险通常存在可被量化的累积效应。因此,作为外置安全兜底机制,保险箍需具备在持续观测的过程中量化风险的能力。

一是需要建立面向具身智能体的安全状态表征模型。风险不应被简单定义为违规或正常的二值事件,而应表示为随时间变化的安全裕度。例如,碰撞概率、可制动距离、控制稳定性或人机接近风险等指标。

二是风险量化的核心在于评估系统的可控性。事故往往源于系统逐渐进入难以恢复的状态(如速度超过制动能力、控制延迟累积或执行器接近极限)。保险箍需要实时判断系统是否仍处于可安全接管或可恢复区域,从而提前触发防护措施。

三是风险量化应融合不确定性评估。在现实环境中,传感噪声、模型置信度下降或环境超出训练分布等,均可能导致决策可靠性降低。当系统认知不确定性显著上升时,即使尚无明显危险,也应提高风险等级并收紧行为边界。

总体而言,风险量化能力的目标是将模糊的危险判断转化为连续可计算的安全状态变量,为运行时的干预与熔断决策提供支持。支撑该能力的关键技术包括:可控性建模技术、安全裕度计算方法、不确定性估计技术以及安全预演能力。风险量化构成整个保险箍体系的技术核心,使安全干预具备可执行、可解释与可验证的基础。

(三)风险熔断能力

风险熔断是对危险行为的强制、即时约束能力,也是保险箍区别于传统安全监测系统的关键,其核心在于具备独立且强制性的干预权限。若安全系统仅能报警而无法采取行动,则无法满足具身智能对实时安全的需求。

一是保险箍应具备分级干预机制。在风险初期,可采用柔性约束方式(如限速、减小力输出或调整运动路径)降低风险,并尽量减少对主任务的影响;当风险升高时,系统应能够强制接管控制权,引导行为体进入安全状态;在极端情况下,则必须执行物理级熔断(如急停、断电或机械制动)。

二是熔断决策必须具有低时延与确定性。具身系统运行在毫秒级控制循环中,安全干预若依赖复杂推理或远程通信将失去实际意义。因此,熔断逻辑需要在本地实时执行,并确保在最坏情况下仍可触发。

三是风险熔断是兜底机制,应具备强制性。保险箍的首要职责是维持安全边界,即使误判带来一定的效率损失,也应优先保证人员与环境安全。

总体而言,风险熔断能力的关键在于安全系统必须拥有独立且可强制执行的最终否决权。运行时安全不止于监测或报警,更应能在危险形成过程中主动改变系统行为。支撑该能力的核心技术包括:分级干预机制、安全轨迹接管技术以及受控安全停机机制。需注意的是,安全停机不应是简单的“关断”,其熔断动作本身也必须经过风险量化,确保干预带来的副作用小于原始风险。

(四)软硬件协同能力

软硬件协同能力是跨域安全的执行基础。然而,为确保具身智能保险箍具备可信度,不能仅依赖软件算法。具身智能往往需要在开放甚至极端环境(如火场救援、深水作业、空间探测或高危工业现场)中执行任务,通信中断、环境扰动或主系统异常均可能同时影响智能体及其安全模块。因此,必须构建软硬件一体化的伴生式安全体系,确保安全控制链路在最不利条件下仍可稳定运行。

一是引入伴生的安全硬件设计。应部署与主计算平台物理隔离但信息互通的“安全副系统”,通过专用安全处理单元、安全控制器或嵌入式安全芯片,实现对模型输入输出与执行状态的旁路观测。这种设计可避免因模型失稳、软件崩溃或网络攻击而导致安全能力同步失效,使保险箍成为独立可信的安全基座。

二是构建独立执行链。安全控制不能仅依赖主控系统转发指令,而必须能够直接作用于执行机构,例如,通过安全总线、硬件级限速接口或独立急停电路实施动作限制与物理干预。只有赋予保险箍绕过主控制路径的直接控制权限,才能使其具备真正的最终否决能力,从根本上防止失控行为持续扩散。

三是构建实时安全运行环境。安全模块需要具备低时延调度、高可靠通信、故障隔离与失效保护机制,以满足功能安全与监管标准要求。在极端环境下,即使通信延迟增加或部分系统组件退化,安全逻辑仍应以确定性方式运行,确保关键安全功能始终优先执行。

总体而言,软硬件协同能力的核心目标是使运行时安全机制在复杂乃至极端任务环境中仍然可信、可执行且不可绕过。支撑该能力的关键技术包括:伴生式安全硬件架构、旁路计算设计、独立执行链、安全信任根以及实时安全操作系统。通过软硬件一体化实现,保险箍不再只是算法层策略,而成为具身智能系统的基础安全设施,为其在高风险场景中的长期可靠运行提供事实保障。

综上所述,具身智能保险箍并非附加安全模块,而是一套以运行时可控性为核心的系统级安全能力体系。在不假设智能体始终可靠的前提下,它通过持续在线的安全约束机制保障具身行为安全。风险感知、量化、熔断共同形成稳定可控的运行时安全能力,构成具身智能进入真实物理世界所必需的基础安全底座,在事前训练约束与事后优化机制之外,强化了运行时可控性的过程保障。

四、具身智能保险箍技术的发展趋势

随着人工智能由认知智能迈向具身智能,其安全正从算法层优化演变为系统级能力构建。作为面向运行时安全的核心技术之一,保险箍体现了具身智能安全能力由单点防护向系统协同保障的发展趋势,具体表现为以下六个方向。

一是由附加模块演进为基础安全设施。随着具身智能进入开放与高风险场景,运行时安全将由事后补充转变为系统设计的前置能力,类似汽车防抱死制动装置或航空的包线保护机制,成为具身系统的默认配置,评价标准也将由智能水平转向极端条件下的安全可控性。

二是推动安全标准与认证体系建立。具身智能规模化部署需要可验证的运行时安全能力,未来,监管体系将围绕风险监测覆盖率、熔断响应时延与可控性保障建立认证框架,推动功能安全、网络安全与人工智能安全的融合监管。

三是走向智能化与自适应演进。固定规则难以应对开放环境,未来,安全系统将融合学习型模型与在线风险建模,实现风险预测与安全裕度自适应调整,使保险箍从被动防护升级为具备持续学习能力的安全调控系统。

四是强调软硬件深度融合。面向灾害救援、深海与空间等极端环境,保险箍将与安全芯片、实时控制硬件及安全操作系统结合,形成具备物理隔离能力的伴生安全子系统,确保在通信受限或主系统失效时仍能独立运行。

五是由单体安全走向分布式群体协同安全。多机器人与群体智能将带来级联风险,未来,保险箍将发展为分布式安全协同体系,通过风险信息共享、联合评估与协同熔断,维持整体系统稳定。

六是成为人机共存社会的信任基础。当具身智能进入公共空间,其社会接受度将取决于行为是否安全可预期。保险箍代表的运行安全,将成为责任界定、监管合规与公众信任的重要支撑。

总体而言,具身智能安全正在由以训练阶段正确性为主导,发展为训练约束、运行时保障与事后优化协同作用的系统保障体系,其中运行时可控性的重要性持续提升。保险箍有望成为具身智能运行时安全的重要基础设施,为未来智能系统提供关键的安全兜底能力。

(本文刊登于《中国信息安全》杂志2026年第3期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。