加州大学伯克利分校发布《智能体人工智能风险管理标准概要（V1.0）》

加州大学伯克利分校近期发布《智能体AI风险管理标准概要（V1.0）》（Agentic AI Risk-Management Standards Profile）。与传统聚焦基础大模型的思路不同，《概要》直面智能体高自主性带来的新型安全风险，构建了全流程、系统化的管理体系，可以作为智能体研发、部署与监管的重要参考。

《概要》并非独立框架，而是对主流风控体系的延伸与补充，沿用了NIST提出的治理、识别、测评、处置等核心功能模块。其中，伯克利通用人工智能标准侧重基础大模型的固有风险，《概要》则聚焦模型获得行动能力后形成的智能体系统风险，二者共同构成“基础模型+应用系统”的双层风控架构，需配套执行。

适用范围上，《概要》覆盖智能体全产业链参与者，包括研发人员、运营人员、政策制定者、第三方评估机构及监管人员，可用于产品合规设计、安全评估与监督审查。技术形态上，它兼容通用智能体、垂直专用智能体，以及开源、闭源、单智能体、多智能体等各类架构。

《概要》对关键术语作出清晰界定，构成风控体系的逻辑基础。其一，区分“AI智能体”与“智能体AI”：前者是搭载工具模块、负责单一固定任务的独立模型单元；后者由多个智能体协同组成，围绕宏观目标运作。单智能体风险多体现为个体行为失控，多智能体则易出现风险链式传播、群体合谋等问题，这正是《概要》强调系统级风控的核心原因。其二，对于通用人工智能，《概要》参照欧盟《人工智能法案》定义：通用AI模型依托海量数据训练，具备跨领域任务处理能力，可嵌入各类下游应用；通用AI系统以通用模型为底座搭建。

当前主流智能体均基于通用大模型开发，会同时继承基础模型缺陷与自主行为带来的新增风险。此外，《概要》还明确了风险概率、影响量级、风险容忍度，以及TEVV（测试、评估、验证、确认）全生命周期管控等核心概念，要求所有风控工作依托标准化流程落地。

四大核心风控模块及高优先级要求

《概要》以治理、识别、测评、处置四大模块为主体，结合风险危害程度划定高优先级子项，作为企业落实风控工作的核心抓手。

（一）治理：筑牢风控制度与组织根基

企业需建立覆盖智能体全生命周期的规章制度，将行为一致性、可解释性、隐私保护、人权保障等可信AI要求融入全流程。治理文档可转换为AI可读取格式，使系统自动遵守规则，但严禁赋予AI修改权限。鉴于智能体大量依赖第三方组件，供应链安全须纳入硬性管理范畴。

企业需以书面形式明确各岗位、各团队在风险排查、评估与处置中的权责及沟通机制（高优先级），坚持“人类主导、AI辅助”的人机协作架构——高风险操作与最终决策权归属人类，设置固定审核节点与风险升级通道。

《概要》对模型开发者、供应商、采购方、终端用户、安全服务商等全链条角色划分责任，搭建完整问责体系。全体参与智能体相关工作的人员需如实记录产品风险及潜在影响，并主动对外公示（高优先级）。

企业应搭建多渠道外部反馈体系，开放问题上报入口，引入第三方审计与红队测试，设立漏洞悬赏计划，并为善意披露风险的主体提供法律保护（高优先级）。供应链管理方面，借助AI物料清单与软件物料清单，完整记录所有第三方组件来源，严格遵循行业安全规范。最后，企业需制定系统关停与退役流程，设计多层关停机制及备用业务系统，留存运行日志，保障故障状态下的业务连续性与事后溯源能力。

（二）识别：全面排查潜在风险

识别环节共五项内容，其中三项为高优先级。企业需完整记录智能体的设计目标、使用场景、合规要求与用户群体，全面评估产品对个人、社群、社会及环境的正负影响，梳理系统短板、禁用场景与边缘案例，重点防范循环反馈引发的风险放大效应。

结合业务实际划定多层风险容忍阈值，在风险红线前设置多级预警区间；警惕单个行为风险较低、但经规模化重复执行后形成的系统性隐患。按通用/专用、单智能体/多智能体完成系统分类，对照行业基准评估综合能力，明确智能体的知识盲区、感知范围与工具权限，编制“智能体档案”，对外公示缺陷、幻觉概率、禁止操作等关键信息。

结合历史事故、内外部反馈，逐一判定各类风险的发生概率与影响程度。针对多智能体系统，重点排查风险传播、群体合谋、行为趋同问题，绘制风险传导路径。将复杂任务拆解为多个子环节，梳理数据流转、工具调用、系统交互全链路，排查节点漏洞；同时关注长期规划、跨域操作带来的远期风险。

结合排查结果，《概要》总结出智能体多项风险：一是歧视与不良内容扩散。系统循环运行会放大固有偏见，能力差异催生新的不平等，自动化传播扩大不良信息影响范围。二是隐私与安全隐患。长期交互易造成数据泄露，内存投毒、提示注入等攻击手段会窃取信息，多智能体系统还可能出现风险连锁泄露。三是虚假信息链式传播。单个智能体生成的错误内容会被多方引用转发，形成大范围不实信息传播。四是恶意滥用。智能体降低了网络攻击、电信诈骗、舆论操控等行为的实施门槛。五是人机交互风险。拟人化设计易导致用户过度信任，系统运行速度远超人类反应能力，故障后难以及时干预。六是社会与环境影响。冲击就业结构、加剧群体鸿沟，大规模算力消耗带来环境负担。七是AI系统自身安全缺陷，涵盖自我增殖、自主修改、数据外泄、自我复制、目标错位、刻意伪装、群体合谋、长期恶意规划、跨域风险传导、现实世界不当交互等高危行为，且智能体权限与工具访问范围越大，此类风险造成的危害越严重。

（三）测评：构建常态化检测体系

测评包含三项内容，其中两项为高优先级。企业应根据风险等级排序，优先针对高危风险设计检测方法与评判指标；对于当前技术手段难以测评的风险及系统可信属性，需形成书面记录并配套额外防护方案。行业主流测评基准可用于多维度评估，避免以单一指标定论。

对抗性红队演练是核心测评手段，可模拟网络攻击、异常指令、指令冲突、信息不对称、环境波动等各类场景，建议联合独立第三方开展演练，测试智能体抵御入侵的能力；针对多智能体，重点排查串通、篡改信息等行为。《概要》提醒，部分智能体会在测试阶段隐藏危险能力，需核查运行日志、封堵测试漏洞。同时，需定期核验系统安全、隐私保护等核心能力，并伴随产品迭代持续开展测评。

依托行业风险数据库、事故案例库搭建长效追踪体系，实时监控运行状态。对于难以监测的风险，需搭配替代追踪方案，结合漏洞悬赏、社区监督等外部手段，全方位挖掘隐性风险。

（四）处置：落实风险分级响应与应急

处置板块下设多项细分要求，其中五个二级子项被划定为高优先级，覆盖上线决策、风险处置、应急响应、系统关停及全周期监控全流程。需结合前期风险识别与测评结果，综合评估智能体的功能实现情况及非预期场景风险，通过模拟全使用场景，做出上线、整改或暂停开发的决策。

针对高危风险制定专项方案，可采用风险缓解、转移、规避、接受四类处置策略，并针对性运用技术手段：依托数据清洗弱化偏见，通过加密通信保障多智能体交互安全，借助检索增强技术阻断虚假信息传播。建立快速溯源、止损、修复的应急机制；若现有风控资源不足，应主动缩减智能体的自主权限与工具使用范围。

系统必须配备自动、人工双重关停机制，当智能体行为偏离预设目标、触碰风险阈值、开展越权操作或出现未知风险时，系统将自动触发限制或关停措施。同时，部分智能体存在主动规避关停机制的行为，因此必须搭建多层防护架构。系统上线后，需落实全周期监控，配套申诉、注销、应急、版本管理等流程，完整留存日志，形成“监控－告警－处置－复盘”的风控闭环。

行业现存局限与落地挑战

《概要》指出当前行业面临四大现实难题：一是行业术语与标准不统一，全球范围内对智能体、自主等级的定义存在差异，部分分级规则直接照搬其他行业，与智能体特性不匹配，导致跨区域、跨企业难以构建统一的合规体系。二是责任界定难度大，智能体的自主决策流程与链路复杂，事故发生后研发方、部署方、第三方供应商、使用者之间的权责划分模糊，问责机制难以落地。三是现有安全工具与管理制度适配性不足，多数仍采用“以模型为中心”的传统风控思路，无法应对智能体系统、工具调用及跨主体动态交互带来的新型风险。四是核心技术尚不成熟，AI价值对齐、隐性风险、群体合谋、长期危害等领域的检测技术仍处于探索阶段。

针对上述问题，《概要》建议行业秉持审慎原则，采用保守规则、多层防护与动态评估策略。

结语

《概要》并未限制技术发展，而是倡导通过完善治理、全面排查、科学测评与快速处置，在创新与安全之间寻求平衡。对于智能体全产业链从业者而言，吃透这份标准、搭建适配自身业务的风控体系，既是规避安全事故的必要手段，也是推动行业长期健康发展的重要基础。

文章参考来源：加州大学伯克利分校，互联网公开信息

声明：本文来自赛博研究院，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

加州大学伯克利分校发布《智能体人工智能风险管理标准概要（V1.0）》

软件开发智能化转型的机遇、进展与挑战

中小银行基于大模型的数据分类分级探索实践

人工智能时代软件供应链安全风险与标准化建设