加州大学伯克利分校近期发布《智能体AI风险管理标准概要(V1.0)》(Agentic AI Risk-Management Standards Profile)。与传统聚焦基础大模型的思路不同,《概要》直面智能体高自主性带来的新型安全风险,构建了全流程、系统化的管理体系,可以作为智能体研发、部署与监管的重要参考。

《概要》并非独立框架,而是对主流风控体系的延伸与补充,沿用了NIST提出的治理、识别、测评、处置等核心功能模块。其中,伯克利通用人工智能标准侧重基础大模型的固有风险,《概要》则聚焦模型获得行动能力后形成的智能体系统风险,二者共同构成“基础模型+应用系统”的双层风控架构,需配套执行。
适用范围上,《概要》覆盖智能体全产业链参与者,包括研发人员、运营人员、政策制定者、第三方评估机构及监管人员,可用于产品合规设计、安全评估与监督审查。技术形态上,它兼容通用智能体、垂直专用智能体,以及开源、闭源、单智能体、多智能体等各类架构。
《概要》对关键术语作出清晰界定,构成风控体系的逻辑基础。其一,区分“AI智能体”与“智能体AI”:前者是搭载工具模块、负责单一固定任务的独立模型单元;后者由多个智能体协同组成,围绕宏观目标运作。单智能体风险多体现为个体行为失控,多智能体则易出现风险链式传播、群体合谋等问题,这正是《概要》强调系统级风控的核心原因。其二,对于通用人工智能,《概要》参照欧盟《人工智能法案》定义:通用AI模型依托海量数据训练,具备跨领域任务处理能力,可嵌入各类下游应用;通用AI系统以通用模型为底座搭建。
当前主流智能体均基于通用大模型开发,会同时继承基础模型缺陷与自主行为带来的新增风险。此外,《概要》还明确了风险概率、影响量级、风险容忍度,以及TEVV(测试、评估、验证、确认)全生命周期管控等核心概念,要求所有风控工作依托标准化流程落地。
四大核心风控模块及高优先级要求
《概要》以治理、识别、测评、处置四大模块为主体,结合风险危害程度划定高优先级子项,作为企业落实风控工作的核心抓手。
(一)治理:筑牢风控制度与组织根基
企业需建立覆盖智能体全生命周期的规章制度,将行为一致性、可解释性、隐私保护、人权保障等可信AI要求融入全流程。治理文档可转换为AI可读取格式,使系统自动遵守规则,但严禁赋予AI修改权限。鉴于智能体大量依赖第三方组件,供应链安全须纳入硬性管理范畴。
企业需以书面形式明确各岗位、各团队在风险排查、评估与处置中的权责及沟通机制(高优先级),坚持“人类主导、AI辅助”的人机协作架构——高风险操作与最终决策权归属人类,设置固定审核节点与风险升级通道。
《概要》对模型开发者、供应商、采购方、终端用户、安全服务商等全链条角色划分责任,搭建完整问责体系。全体参与智能体相关工作的人员需如实记录产品风险及潜在影响,并主动对外公示(高优先级)。
企业应搭建多渠道外部反馈体系,开放问题上报入口,引入第三方审计与红队测试,设立漏洞悬赏计划,并为善意披露风险的主体提供法律保护(高优先级)。供应链管理方面,借助AI物料清单与软件物料清单,完整记录所有第三方组件来源,严格遵循行业安全规范。最后,企业需制定系统关停与退役流程,设计多层关停机制及备用业务系统,留存运行日志,保障故障状态下的业务连续性与事后溯源能力。
(二)识别:全面排查潜在风险
识别环节共五项内容,其中三项为高优先级。企业需完整记录智能体的设计目标、使用场景、合规要求与用户群体,全面评估产品对个人、社群、社会及环境的正负影响,梳理系统短板、禁用场景与边缘案例,重点防范循环反馈引发的风险放大效应。
结合业务实际划定多层风险容忍阈值,在风险红线前设置多级预警区间;警惕单个行为风险较低、但经规模化重复执行后形成的系统性隐患。按通用/专用、单智能体/多智能体完成系统分类,对照行业基准评估综合能力,明确智能体的知识盲区、感知范围与工具权限,编制“智能体档案”,对外公示缺陷、幻觉概率、禁止操作等关键信息。
结合历史事故、内外部反馈,逐一判定各类风险的发生概率与影响程度。针对多智能体系统,重点排查风险传播、群体合谋、行为趋同问题,绘制风险传导路径。将复杂任务拆解为多个子环节,梳理数据流转、工具调用、系统交互全链路,排查节点漏洞;同时关注长期规划、跨域操作带来的远期风险。
结合排查结果,《概要》总结出智能体多项风险:一是歧视与不良内容扩散。系统循环运行会放大固有偏见,能力差异催生新的不平等,自动化传播扩大不良信息影响范围。二是隐私与安全隐患。长期交互易造成数据泄露,内存投毒、提示注入等攻击手段会窃取信息,多智能体系统还可能出现风险连锁泄露。三是虚假信息链式传播。单个智能体生成的错误内容会被多方引用转发,形成大范围不实信息传播。四是恶意滥用。智能体降低了网络攻击、电信诈骗、舆论操控等行为的实施门槛。五是人机交互风险。拟人化设计易导致用户过度信任,系统运行速度远超人类反应能力,故障后难以及时干预。六是社会与环境影响。冲击就业结构、加剧群体鸿沟,大规模算力消耗带来环境负担。七是AI系统自身安全缺陷,涵盖自我增殖、自主修改、数据外泄、自我复制、目标错位、刻意伪装、群体合谋、长期恶意规划、跨域风险传导、现实世界不当交互等高危行为,且智能体权限与工具访问范围越大,此类风险造成的危害越严重。
(三)测评:构建常态化检测体系
测评包含三项内容,其中两项为高优先级。企业应根据风险等级排序,优先针对高危风险设计检测方法与评判指标;对于当前技术手段难以测评的风险及系统可信属性,需形成书面记录并配套额外防护方案。行业主流测评基准可用于多维度评估,避免以单一指标定论。
对抗性红队演练是核心测评手段,可模拟网络攻击、异常指令、指令冲突、信息不对称、环境波动等各类场景,建议联合独立第三方开展演练,测试智能体抵御入侵的能力;针对多智能体,重点排查串通、篡改信息等行为。《概要》提醒,部分智能体会在测试阶段隐藏危险能力,需核查运行日志、封堵测试漏洞。同时,需定期核验系统安全、隐私保护等核心能力,并伴随产品迭代持续开展测评。
依托行业风险数据库、事故案例库搭建长效追踪体系,实时监控运行状态。对于难以监测的风险,需搭配替代追踪方案,结合漏洞悬赏、社区监督等外部手段,全方位挖掘隐性风险。
(四)处置:落实风险分级响应与应急
处置板块下设多项细分要求,其中五个二级子项被划定为高优先级,覆盖上线决策、风险处置、应急响应、系统关停及全周期监控全流程。需结合前期风险识别与测评结果,综合评估智能体的功能实现情况及非预期场景风险,通过模拟全使用场景,做出上线、整改或暂停开发的决策。
针对高危风险制定专项方案,可采用风险缓解、转移、规避、接受四类处置策略,并针对性运用技术手段:依托数据清洗弱化偏见,通过加密通信保障多智能体交互安全,借助检索增强技术阻断虚假信息传播。建立快速溯源、止损、修复的应急机制;若现有风控资源不足,应主动缩减智能体的自主权限与工具使用范围。
系统必须配备自动、人工双重关停机制,当智能体行为偏离预设目标、触碰风险阈值、开展越权操作或出现未知风险时,系统将自动触发限制或关停措施。同时,部分智能体存在主动规避关停机制的行为,因此必须搭建多层防护架构。系统上线后,需落实全周期监控,配套申诉、注销、应急、版本管理等流程,完整留存日志,形成“监控-告警-处置-复盘”的风控闭环。
行业现存局限与落地挑战
《概要》指出当前行业面临四大现实难题:一是行业术语与标准不统一,全球范围内对智能体、自主等级的定义存在差异,部分分级规则直接照搬其他行业,与智能体特性不匹配,导致跨区域、跨企业难以构建统一的合规体系。二是责任界定难度大,智能体的自主决策流程与链路复杂,事故发生后研发方、部署方、第三方供应商、使用者之间的权责划分模糊,问责机制难以落地。三是现有安全工具与管理制度适配性不足,多数仍采用“以模型为中心”的传统风控思路,无法应对智能体系统、工具调用及跨主体动态交互带来的新型风险。四是核心技术尚不成熟,AI价值对齐、隐性风险、群体合谋、长期危害等领域的检测技术仍处于探索阶段。
针对上述问题,《概要》建议行业秉持审慎原则,采用保守规则、多层防护与动态评估策略。
结语
《概要》并未限制技术发展,而是倡导通过完善治理、全面排查、科学测评与快速处置,在创新与安全之间寻求平衡。对于智能体全产业链从业者而言,吃透这份标准、搭建适配自身业务的风控体系,既是规避安全事故的必要手段,也是推动行业长期健康发展的重要基础。
文章参考来源:加州大学伯克利分校,互联网公开信息
声明:本文来自赛博研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。