AI智能体的兴起代表着人工智能 (AI) 的重大变革——从被动、基于提示的工具,转变为能够推理、记忆、学习和执行复杂任务的自主性更强的系统。随着各行各业采用这些智能体,对业务运营、人机协作和国家安全的深层影响正日益凸显。
在网络安全领域,AI智能体已被证明是人类分析师的宝贵助手——它们增强了威胁检测能力,加快了事件响应速度,并支持不堪重负的网络团队。然而,随着智能体基础设施堆栈(涵盖感知、推理、执行和记忆)功能越来越强大,确保智能体安全、可解释且可靠的责任也随之加重。
为了应对人工智能的下一个前沿,本研究探讨了AI智能体的网络安全影响,并提出了一个三管齐下的框架来指导安全设计和负责任的部署:(1)确定政策优先事项,包括自愿的、针对特定行业的人机协作指南;(2)预测新兴技术解决方案,以加强智能体监督和网络弹性;(3)概述开发人员、组织和最终用户的最佳实践,以确保智能体增强而不是取代人类的才能和决策。
最终,目标不仅仅是跟上智能体系统的发展步伐,而且要塑造它们的发展轨迹——利用它们的优势,最大限度地降低它们的风险。
一、简介
2023 年被称为“生成人工智能 (Gen AI)” 元年,2024 年则稳步迈向“人工智能实用化”,而 2025 年则被寄予厚望,被誉为“AI智能体”元年。AI智能体的核心是“由人工智能驱动的自主智能系统,旨在独立执行特定任务,无需人工干预。”
然而,正如以往人工智能的进步一样——无论是 Gen AI、开源 AI 还是大型语言模型 (LLM)——一个普遍接受的定义仍然难以捉摸。一些专家将AI智能体描述为“试图通过观察世界并使用 [它们] 掌握的工具对其采取行动来实现目标的应用程序。”
另一些人将智能体描述为“位于语言模型之上的层,用于观察和收集信息,为模型提供输入,共同生成行动计划并将其传达给用户——或者在允许的情况下甚至自行采取行动。” 尽管这些定义在精确的措辞和观点上有所不同,但每个定义都强调了智能体使用包括学习、记忆、计划、推理、决策和适应在内的一系列能力,自主地追求和完成目标的能力。
值得注意的是,并非所有AI智能体都生而平等。非智能体和智能体人工智能系统在运作方式上有所不同,尤其是在自主性和目标设定方面。非智能体系统(例如 ChatGPT 或 Alexa 的早期版本)会响应用户提示,但不会保留记忆、设定目标或自行发起操作。相比之下,智能体人工智能系统会随着时间的推移追求目标,利用情境感知、自主规划和自适应推理,在极少的人工输入或监督下执行多步骤任务。例如,智能体系统可以自主地跨多个网站研究某个主题,生成定制报告,并通过电子邮件分发。这种额外的复杂性使AI智能体拥有更大的潜力,能够跨越不同领域,并产生更复杂的现实世界结果。这些能力不仅释放了新的机遇,也为监督、治理和网络安全带来了新的挑战,这些挑战在范围和规模上都与早期的人工智能系统不同。
AI智能体已经开始改变各个领域的工作流程,尤其是在软件工程领域,它们越来越多地嵌入到日常开发任务中。例如,Claude 3.7 和 Cursor AI 正在自动执行代码生成、重构和调试等软件开发任务。在网络安全方面,微软的 Security Copilot 可以自主分类网络钓鱼警报,根据分析师反馈动态更新其检测功能,并标记安全策略配置问题。其他类似和新兴的专注于网络安全的AI智能体包括 Exabeam 的 Copilot、Cymulate AI Copilot 和 Oleria Copilot,它们都简化了网络事件调查和模拟。
除了这些以编程和网络安全为中心的智能体之外,OpenAI 的 Operator、Anthropic 的 Computer Use 和 Google 的 Project Astra 等通用智能体也因其协调多步骤 Web 导航、表单完成和跨应用程序集成等任务的潜力而脱颖而出。
展望未来,许多专家预测智能体人工智能将在三个关键领域继续发展:(1)增强推理和情境理解以更有效地解决问题;(2)为复杂任务执行提供更大的自主权;(3)增强人力资源。
一些专家甚至预测,未来五年,工人们将面临人工智能承担80%日常任务的现实。随着AI智能体开始承担越来越多的认知和操作任务,它们对业务运营、劳动力动态和数字基础设施的影响将日益显著。因此,专家们现在将智能体人工智能的技术领导地位视为具有国家战略意义的问题。尽管当今许多领先的智能体仍然由美国人工智能和科技公司开发,但全球对智能体人工智能领域领导地位的竞争仍在持续。
在美国以外,由初创公司蝴蝶效应开发的 Manus引起了全球关注。该公司声称自己是“世界上第一个通用AI智能体,使用多种人工智能模型(例如 Anthropic 的 Claude 3.5 Sonnet 和阿里巴巴开源 Qwen 的微调版本)和各种独立运行的智能体来自主执行各种任务。” Manus 旨在通过单一提示独立执行各种以目标为导向的任务,包括语言翻译、在线购买、研究综合和 3D 游戏开发。 Manus 的推出凸显了AI智能体在全球创新生态系统中的战略重要性,并反映了开源人工智能运动和围绕人工智能创新和部署的更广泛竞争格局中已经观察到的趋势。
与早期的人工智能发展浪潮一样,在智能体人工智能领域建立技术领导地位可能带来经济和重大的地缘政治影响,特别是如果智能体嵌入到金融、医疗保健和国防等敏感领域的关键工作流程中。例如,2025 年 3 月,五角大楼与 ScaleAI 签订合同,让人工智能发挥一位记者所说的“迄今为止在西方国防领域最突出的作用”。该计划被称为国防部在军事工作流程中部署智能体系统的“首次尝试”,旨在加速战略评估、模拟战争游戏场景和实现战役发展的现代化。这笔交易不仅凸显了确保美国技术领导地位的风险日益增加,而且在许多人才刚刚开始努力应对这项技术的全部能力、局限性和风险之际,它开启了“智能体战争”时代。
AI智能体的兴起为我们提供了一个至关重要的机会——不仅要研究AI智能体的开发方式,还要研究如何对其进行保护和管理。随着智能体系统开始简化业务运营、问题解决和人机协作,其影响远远超出了技术创新的范畴。
鉴于这些快速发展的转变,政策制定者必须制定平衡、前瞻性和灵活的治理战略——这些战略既要支持智能体的创新和使用,又要主动降低风险并确保长期的国家安全韧性。
本研究考察了定义人工智能发展的优势、风险、网络安全考量和政策需求。
首先,概述了智能体系统的架构,并解释其与前几代人工智能工具的区别。然后,探讨了AI智能体在网络安全用例中的部署方式,并识别了它们在四个不同的基础设施层面(感知、推理、执行和记忆)中引入的新风险类别。最后,本文提出了安全可靠的部署框架,强调了政策、技术保障措施和组织实践在增强长期韧性方面的作用,并表明——如果得到谨慎和前瞻性的引导——智能体系统(Agentic Systems)不仅可能标志着人工智能的下一阶段,而且可能成为数字安全构建和维护方式的转折点。
二、背景
尽管AI智能体在 2024 年末和 2025 年初占据了新闻头条,但其概念基础可以追溯到 20 世纪七八十年代,当时的研究探索系统在环境中感知和智能行动的能力。 这些早期系统通常被称为“智能体(intelligent agents)”,它们依赖于基于规则的逻辑,且由于硬件、计算能力和算法复杂度的限制而导致自主性有限,从而支持语言分析、生物医学应用和机器人技术。当时,这些智能体被描述为“一种新型的人工智能系统,能够适应变化的环境,从数据中学习并做出复杂的决策”。
如今,人们对智能体的兴趣再度高涨,反映了多项技术进步的融合:可扩展的云基础设施、GPT-4 和 Claude 3.5 等先进的基础模型,以及支持在极少人工监督下进行规划、推理和执行的模块化架构。诸如 AutoGPT(一款“使用 GPT-4 自主行动的实验性开源 Python 应用”)之类的工具,也有助于推广这种从被动式、基于提示的工具到主动式、目标驱动型系统的转变,该系统能够协调复杂的任务。因此,AI智能体如今被定位为具有显著运营和经济效用的实用工具——从自动化软件开发到自动化客户服务,甚至增强实时网络安全防御。
在架构层面,AI智能体通常作为大型语言模型(LLMs)的上层运作层,其核心包含四大基础模块:感知模块、推理模块、执行模块与记忆模块
感知模块负责从外部来源(例如用户输入或应用程序编程接口 )获取数据。收集数据后,推理模块利用 LLM 的功能来规划或推断最佳行动方案。然后,执行模块可以通过工具、API 或与第三方系统的集成来执行任务。最后,记忆模块通过向量数据库或会话式记忆管理器存储上下文信息。这种模块化堆栈使智能体能够跨现实世界的应用运行,并在完成任务的同时进行调整,而静态提示链或检索增强生成 (RAG) 管道则无法做到这一点。
图 1:高级 AI 智能体的关键组件
来源:凯特·怀廷,《AI智能体的崛起:它们是什么以及如何管理风险》,世界经济论坛,2024 年 12 月 16 日。
该架构背后是一个支撑基础架构堆栈:用于 LLM 访问的模型 API、用于快速检索的记忆存储、用于协调任务状态的会话管理器、用于操作输出的外部工具集成,甚至还有支持模块化开发的开源框架和库。多智能体系统又增加了一层复杂性,允许智能体在共享环境中协作或将任务委托给其他智能体。这种日益增长的互联互通可以增强智能体的能力,但它也可能带来关于可解释性、隐私、系统安全性和可靠性的新挑战。
为了进一步了解智能体的工作原理,熟悉人工智能研发中出现的七种主要智能体类型至关重要。
每一类智能体都代表着不同程度的自主性、复杂性和适应性:
1.简单反射型智能体(Simple Reflex Agents)。作为最基础的智能体形态,该类智能体仅依据预定义的条件-动作规则运作。此类系统典型应用于关键词垃圾邮件过滤器等场景——通过预设规则或关键词列表,为邮件标注"垃圾邮件/非垃圾邮件"分类标记。
2. 基于模型的反射智能体。 基于模型的反射智能体建立在简单的反射智能体基础上,能够维持内部状态,从而根据历史环境或数据调整动作,这类似于智能恒温器根据过去的模式调节温度。
3.目标导向型智能体(Goal-Based Agents)。该类智能体引入意向层机制,通过评估行为对预设目标的达成效能来决策行动方案。例如旅行预订智能体——以极简人工干预完成航班预订与住宿协同安排——即属此第三类智能体范畴。
4. 效用导向型智能体(Utility-Based Agents)。该类智能体通过量化行为结果的受益程度实现决策进阶,其核心机制在于权衡不同行动路径可能产生的效用值,从而选择预期收益最优方案。例如优化配送路线以节省时间成本、经济价值或燃料消耗的智能系统,即属此类智能体的典型应用。
5. 学习型智能体(Learning Agents)。此类智能体突破前述四类智能体的固定策略局限,通过持续整合反馈信号与新数据动态更新决策策略。其核心能力在于随时间推移自主优化性能表现,典型如基于学生行为模式与进度动态调优教学方案的AI教育系统。
6.多智能体系统(Multi-Agent Systems)。在复杂环境场景下,多智能体系统集成多个智能体,以协同或博弈机制完成共享任务,典型应用如供应链物流网络的动态协同优化。
7.分层智能体(Hierarchical Agents)。此类智能体采用多级决策架构,通过任务委派机制与依赖关系管理实现子任务分解,其运作逻辑高度类同于组织化工作流的层级管控模式
当今许多领先的智能体,包括谷歌的Project Astra、OpenAI 的 Operator 和 CrewAI,都反映了日益增长的趋势:为在不同环境和行业中灵活使用而设计的通用系统的出现。
随着智能体AI技术日趋成熟,建立网络安全、互操作性与治理标准的工作已然展开。这包括:创新性"多智能体环境-安全-威胁-风险-成果(MAESTRO)"威胁建模框架,沙箱隔离与权限管控策略,以及对记忆约束与数据边界的高度关注。唯有理解技术演进脉络、智能体基础设施层级架构及现有智能体类型的实践差异,方能洞悉当前发展态势,前瞻性研判未来网络安全与政策治理的关键挑战。
三、AI智能体的安全优势
得益于增强的自主性、先进的推理能力和持续自我改进的能力,AI智能体已被部署用于简化客户服务工作流、协助进行初步法律研究以及自动化数据输入。尽管上述应用均具重要价值,但此类场景中的AI智能体通常仅支撑行政性、常规化及强结构化的任务范畴
相比之下,网络安全领域的AI智能体越来越多地被部署为一线人类分析师的副驾驶,积极参与正在发生的事件,在不可预测的情况下快速做出决策,并在高压力环境中运行。
换句话说,AI智能体不仅提高了效率,还通过自主执行对整个网络工作人员的持续监控、漏洞管理、威胁检测、事件响应和决策至关重要的任务来增强网络弹性。
1、持续攻击面监控和漏洞管理
随着人工智能及其他新兴技术持续向云基础设施、第三方平台、物联网(IoT)设备及边缘环境渗透,个人与组织需持续监测并防护的整体攻击面正变得日益碎片化,安全防护复杂性显著加剧。
虽然边缘计算可以实现更大程度的去中心化和本地化处理,但设备、应用和服务之间日益增长的互联互通也可能放大现有的漏洞,增加可能的故障点数量,引入新的威胁载体,并降低整体风险可见性,尤其是在互操作性不一致或管理不善的环境中。尤其如此,因为支持人工智能的系统经常与外部 API、开源资源和实时数据流交互,其中许多都难以追踪、审查或完全控制。
传统的漏洞管理方法依赖于定期扫描或计划修补,已不再适合当今快速发展的分布式环境。AI智能体提供了一种更具适应性、更具连续性的替代方案。尽管AI智能体仍然主要由人类分析师监督,但它们越来越能够自主协助完成关键任务,包括映射系统、识别漏洞以及根据预期的严重程度或业务影响确定补丁的优先级。随着人工智能的不断发展,这些系统可能有助于加速甚至自动化部分修补过程,例如推荐修复程序、触发回滚或根据实时上下文调整配置。
近期实例表明,智能体能力已在真实世界的网络安全应用场景中得到探索。例如,2024年末,谷歌的"零号项目"(Project Zero)与DeepMind宣称,他们成功运用AI智能体在全球首次发现了一个可被利用的零日内存安全漏洞,该漏洞存在于广泛使用的现实世界软件中。其他AI智能体正被训练用于自主模拟对企业系统的攻击,有效执行红队演练,以便在对手利用之前识别并测试漏洞。这两个案例共同反映了漏洞管理方法正在发生的广泛转变。随着攻击面持续演变,AI智能体可能成为关键助力——不仅帮助网络防御者应对新兴威胁,更能提升新型及放大型漏洞的识别、优先级排序与修复的速度和规模。
2、实时威胁检测和事件响应
尽管AI已通过异常检测、威胁情报自然语言处理及重复性/低阶任务自动化,在网络安全领域展现出广泛价值,但AI智能体正推动质的跃升。
凭借模块化架构、记忆能力及目标导向的多步骤执行特性,此类智能体能够持续学习演变的威胁模式,关联离散攻击信号,并在无需人工干预的情况下自主启动精准响应。这种能力在高速流量环境中尤为重要——即便检测与响应之间存在微小延迟,亦可能影响新兴威胁的演变轨迹及事件遏制行动的成功率。
例如,在安全运营中心 (SOC),可以部署AI智能体来监控网络流量、标记异常并触发疑似受到威胁的系统的隔离协议。多智能体设置可以将职责划分为网络监控、威胁情报合成和自动修复。这些功能已经在企业环境中通过新兴安全工具得到展示,例如微软的 Security Copilot 智能体、Simbian 的 SOC AI 智能体和 DropZone AI 的 SOC Analyst 等。
一旦检测到入侵行为,此类智能体不仅会标记新兴威胁——更能联动防火墙或端点防护平台实施实时节点隔离、通知管理员、启动系统恢复流程,乃至执行多任务组合式响应 。这种速度和协调水平尤为重要,因为这意味着AI智能体可以帮助减少平均检测时间 (MTTD) 和平均响应时间 (MTTR),这两者都是减轻网络安全事件范围和成本的关键指标。
3、增强决策和网络劳动力支持
近年来,报告不断强调网络人才缺口持续存在。世界经济论坛报告称,2025 年全球网络专业人员短缺超过 400 万。仅在美国,缺口估计就在 50 万~70 万之间。此外,现有的网络团队面临着越来越高的工作需求,许多专业人员报告说他们的工作时间和工作量无穷无尽。事实上,最近的一项调查显示,超过 80% 的受访者经历过疲倦。这导致许多一线网络防御者和专家不仅考虑离职,甚至考虑离开整个行业,这表明危机日益严重,而且没有减弱的迹象。许多组织已经在使用人工智能增强工具来帮助简化工作流程并加速整个团队的技能提升,但网络威胁的范围、速度和复杂程度的加快往往超过这些增量收益。
因此,AI智能体正快速融入网络安全团队——其定位并非替代人类分析师,而是作为战力增效的的副驾驶。尽管当前这一代AI智能体还远未完善,但它们已经熟练掌握了各种关键任务,包括调整防火墙、通过重复数据删除安全警报来降低噪音、按严重程度对安全警报进行分类、使用遥测阈值和异常检测来强制执行策略更改等。
在此过程中,人工智能安全副驾驶,如思科的人工智能助手、CrowdStrike 的夏洛特人工智能、飞塔的顾问、Trellix 的 WISE 以及谷歌的 Sec-PaLM 和 AI Workbench,正在获得越来越大的吸引力,以帮助组织保持其 SOC 配备足够的人员并提高效率,从而更好地遏制威胁。此外,在配备这些 AI 安全副驾驶后,SOC 的误 报率显著改善(高达 70%),同时每周减少 40 多个小时的人工分类时间。这些早期的成功表明,AI 智能体正在成为一种技术解决方案,可以帮助组织节省时间和金钱,同时提高其网络弹性并留住网络防御者。
四、网络安全考量因素和潜在风险
事实证明,AI智能体的强大之处不仅在于其能够独立完成各种任务,还在于能够基于新数据或新信息,高效地在数字环境中学习和适应。这些让AI智能体印象深刻的能力,例如记忆力、自主性和推理能力,也可能使其成为极具吸引力的攻击目标。
AI智能体架构的构建方式存在多种方案,我们将其架构分为四个核心层级:感知层、推理层、执行层与记忆层。每一层都对应着AI智能体生命周期中数据收集、分析、应用和优化的关键阶段。由于每一层在AI智能体的工作流程中发挥着不同的作用,因此不同模块中相关的风险和缓解需求也各不相同,从而影响了每个阶段的网络安全考量。
第一层:感知模块
在第一层,智能体的任务是通过传感器(例如摄像头、数据输入)扫描和观察给定环境,为其提供基础上下文信息,然后将这些数据转换为合适的处理格式。由于感知模块依赖多个数据管道进行分析,因此该层可能面临各种特定于数据的安全风险,这些风险会影响智能体工作流的数据机密性和完整性。这些攻击包括但不限于对抗性数据注入(也称为数据中毒)和人工智能模型供应链风险。
对抗性数据注入是针对智能体工作流程感知层最突出的安全风险之一,因为它会篡改模型的完整性以及智能体在训练中真实分析数据点的能力。例如,恶意行为者可以无缝地插入修改,从而误导视觉模型,使其对特征进行不正确的描述,并对内容进行不精确的分类,从而代表智能体。在图像处理过程中,恶意行为者可能会操纵图像像素,在图像中添加额外的噪点,或进行其他类型的扰动,而这些扰动无论是人眼还是通过人工智能感知系统都难以察觉。
虽然操纵图像像素值来欺骗智能体是一种常见的对抗性数据风险,但研究人员发现,即使数据集中的小规模扰动也可能对智能体的学习过程产生重大影响,导致其将输入错误地分类为“恶意选择的目标类别(在有针对性的攻击中)或与基本事实不同的类别”。这些类型的攻击尤其具有挑战性,因为不良行为者无需直接访问模型架构即可执行这些攻击。
此类数据中毒方法还可能通过改变训练集的分布或重塑数据以符合对抗目标,将智能体的数据分析从开发人员设定的预期模式“重新调整”为恶意行为者设定的恶意模式。例如,在后门攻击中,攻击者可以故意修改训练数据以引入特定的触发器,当触发这些触发器时,会导致模型以预定的、通常是恶意的方式运行。
此类网络安全风险在感知层尤其令人担忧,因为它严重依赖最先进的基础模型(其中许多是外部来源的),从而产生了额外的依赖关系。虽然这些模型对于实现高级智能体性能至关重要,但它们的集成也扩大了智能体暴露于潜在软件供应链漏洞的风险,尤其是在预训练阶段。
事实上,攻击者可以利用人工智能和软件供应链的去中心化特性,在预训练阶段将恶意数据嵌入这些基础模型中。此类攻击的性质取决于目标,范围从数据中毒到权重中毒,以及标签修改的方法。 这两种类型的后门攻击都可能导致智能体系统下游性能受损。
图 2展示了针对预先训练的基础模型的后门攻击过程。在许多情况下,这些攻击难以检测,因此也难以缓解。这也增加了风险从基础模型转移到 AI 智能体本身的可能性。如果风险被转移,AI 智能体可能会继承这些漏洞,并将其带到后续部署中。
图2:针对统一基础模型的后门攻击框架
资料来源:Zenghui Yuan 等人,“对预训练统一基础模型的后门攻击”,arXiv,2023 年 2 月 23 日https://arxiv.org/pdf/2302.09360
除了数据投毒和后门攻击之外,最近的报告还披露了开源平台 Hugging Face——开发者托管、定制及共享预训练模型的主流开源平台——其Safetensors 格式转换服务在高危漏洞。据人工智能安全公司 HiddenLayer 称,攻击者可‘通过该平台向任意代码库提交恶意拉取请求(Pull Request)注入攻击者操控的数据,并劫持经此转换服务提交的所有模型。此漏洞将引发严重安全风险,尤其是考虑到 Hugging Face 作为预先训练模型的主要枢纽的作用。实际上,这种利用可能允许攻击者冒充聊天机器人并提交恶意查询,内容涵盖从金融劫案操作指南直至核武器或生物武器的制造指导。
第 2 层:推理模块
AI智能体工作流的第二层是推理模块,该模块主导智能体的内部决策流程。在此阶段,感知模块(第一层)采集的数据经解析转化为可执行指令。智能体通过审核分析上下文信息,应用预载规则库、模式识别或逻辑排序机制生成决策结论——该过程依托图形处理器(GPU)、张量处理器(TPU)等专用硬件及模型托管环境实现。
例如,某智能体可通过分析网络活动日志,结合历史行为模式与异常检测模型,判定用户请求的合法性或风险等级。由于推理模块在分析判断中处于核心地位,该层的漏洞及防护薄弱点将导致决策失误或特征误判,尤其在攻击者篡改输入信号或利用模型/基础设施漏洞时。最终,此类错误将削弱终端用户对智能体可靠性及准确性的信任。
此阶段最常见的流程级安全风险之一是模型底层漏洞的利用。这些缺陷可能源于广泛使用的 AI 框架,例如 PyTorch。PyTorch 通过帮助开发人员构建、训练和微调机器学习模型,在推理层中发挥着关键作用。PyTorch 也常用于深度学习模型的开发、推理处理和优化,使其成为许多 AI 智能体工作流程的核心组件。
安全漏洞也可能来自错误配置的库和不安全的模型托管环境,尤其是那些允许用户上传未经严格验证的用户生成模型的环境。例如,在 2024 年初,研究人员发现 Hugging Face 平台上有大约 100 个恶意机器学习模型,这些模型能够将恶意代码存放到用户的机器上。
另一类可能影响智能体知识库的攻击是模型利用攻击。攻击者不会直接瞄准人工智能输入,而是尝试探测人工智能的内部逻辑,以提取专有知识、内部决策路径或敏感的训练数据。攻击者可以使用三种技术来利用模型。首先,不良行为者可以尝试通过重建训练数据的某些方面来提取个人身份信息 (PII)。这也称为模型反转攻击。另一种方法是黑盒提取,其中攻击者无法直接访问模型的架构或权重,而是提交迭代查询来推断或复制模型,从而导致知识产权盗窃或下游对抗性攻击。最后,攻击者可能会尝试通过精心设计提示来越狱或探测模型的逻辑,旨在诱骗模型透露其底层结构或智能体如何处理信息。随着这些不良行为者不断完善他们的提示,他们可以分析输出以映射智能体的决策边界,识别以后可利用的漏洞,并改进幻觉策略,从而随着时间的推移降低或误导智能体的性能。
第 3 层:执行模块
智能体工作流的第三层为执行模块,其核心职责是将第二层(推理模块)的决策流程转化为实际操作。正因该层直接实施具体行动,即便看似微小的操作干扰亦可能引发非预期后果,甚至造成实质危害。这一特性使执行模块对攻击行为高度敏感——尤其当攻击者利用智能体与外部系统的接口调用能力时,安全防护要求尤为严苛。
攻击者可能通过各种途径入侵此层,包括但不限于提示注入、指令劫持、未经授权的访问、权限提升以及 API 集成中的漏洞。这些风险凸显了在此层实施严格的输出验证和访问控制的重要性。
在即时注入攻击中,攻击者向智能体输入恶意提示,目的是操纵智能体执行超出其预期目的范围的操作,例如泄露 PII 或生成恶意输出。
提示注入侧重于操纵输入以修改智能体的行为,而命令劫持则更进一步,根据先前的输入执行未经授权的命令。一个有据可查的例子是“即兴程序”攻击,攻击者使用欺骗性提示操纵人工智能系统,以检索姓名、电子邮件地址和付款详细信息等敏感信息。这起事件说明了看似微小的漏洞和利用技术如何被用来泄露用户隐私并破坏系统完整性。
该层的另一个安全风险是通过权限提升,实现未经授权的访问。由于AI智能体跨不同的结构化执行层运行,并与一系列系统(例如数据存储、应用程序、最终用户和预先训练的基础模型)交互,因此任何安全漏洞都可能使攻击者在智能体工作流中横向移动。
这种权限提升可能导致基于角色的访问控制配置错误,从而使攻击者能够访问受限模态和底层模型的基础,或促使模型执行未经授权的操作。在最近的一个示例中,Palo Alto Networks 的研究人员在 Google 的 Vertex AI 平台中发现了两个漏洞,这些漏洞可能使不良行为者能够提升权限并提取模型。
如本节前面所述,由于访问控制薄弱,操作模块也容易受到不安全执行权限的影响。这些安全漏洞可能使恶意行为者能够毒害模型,或诱骗模型以合法提示为幌子执行欺骗性或有害的请求。
由于这一层是AI智能体与外部连接之间的主要接口,API 是一个关键的、但通常安全性不足的攻击载体。如果通信渠道缺乏强大的安全保障,不法分子可能会通过中间人攻击拦截和操纵不同的模型请求和响应,或者重新提示之前的人工智能查询,以获取对受限区域的访问权限。例如,勒索软件组织可以利用易受攻击的欺诈检测 API 来篡改交易数据,同时逃避检测。
更广泛地说,API 漏洞也可能源于端点检测失败、API 密钥缺失或验证不当,或令牌身份验证松懈。这些弱点可能为攻击者绕过限制、实现权限提升和操纵智能体行为打开大门。在此过程中,攻击者还可以执行对抗性提示注入或其他形式的输入操纵,从而导致有害的输出。
除了 API 之外,AI 智能体通常还依赖第三方服务进行数据分析。这又增加了一层网络安全风险:数据集泄露、API 依赖关系不安全或监控不足,都可能让攻击者在不被发现的情况下篡改 AI 智能体的运行。如果第三方软件供应链的任何环节受到损害,智能体的性能和可信度都可能严重下降,并且更难以立即修复和恢复。
许多智能体也部署在云环境中,而云环境本身就存在一系列网络风险和潜在漏洞。薄弱的配置设置(例如未签名的代码发布或管理不善的访问控制)会使系统暴露于软件供应链攻击和恶意模型更新。此外,云存储桶中的安全漏洞也可能泄露敏感的模型参数,从而引发知识产权盗窃和其他类似的对抗性攻击。
第四层:记忆模块
智能体工作流的第四层也是最后一层是记忆模块,它负责跨任务保留上下文、存储相关数据,并根据过去的交互为未来的决策提供信息。该模块将AI智能体与其他人工智能模型或基于 LLM 的工具区分开来,后者通常在单个会话或查询窗口内运行。通过实现长期情境感知、学习持久性和记忆驱动的适应性,记忆模块促进了AI智能体随着时间的推移不断自我完善的能力。
在记忆层存在的主要网络安全风险是记忆篡改或损坏——攻击者通过操纵存储的记忆数据,扭曲智能体的认知或植入错误的历史信息。这可能通过学习流投毒(恶意篡改实时输入数据,使其最终成为记忆)或未经授权篡改静态记忆库。这些攻击可能会降低AI智能体的性能,或潜移默化地影响未来的行动,使其产生有害的输出。
与此相关,未经授权的数据保留是此层中的另一个网络安全风险。当发生未经授权的数据保留时,AI 智能体会记住它们不应保留的数据或信息,这可能是因为它们无意中收集了预期用例或学习范围之外的数据、保留数据的时间超过了允许时间,或者未能按照指示删除数据。 这可能导致违反现有隐私法或用户条款和条件,并无意中泄露敏感的用户信息。即使防护完善的AI智能体,若缺乏有效的记忆治理防护机制或实施不当,仍可能遭遇此类网络安全威胁。
记忆模块之所以尤为重要,是因为它与智能体生命周期前三层的递归关系。如果将数据生命周期概念化为一个圆圈,第四层实际上就闭合了循环,这意味着在流程早期引入的任何漏洞或风险,例如数据投毒或训练过程以及错误推理,不仅可以保留,且可以随着时间的推移而得到强化。例如,如果对抗性数据通过感知层被提取,并且没有被标记为损坏,则记忆模块可以将其保存为可信输入,并继续应用该上下文来影响未来的推理过程和动作。类似地,如果攻击在推理模块中操纵了AI智能体的逻辑,那么它在行动模块中完成的任务可能会被记住为有效的先例。
这样一来,记忆模块不仅仅为AI智能体的未来表现提供信息支持,更可能将过去的错误与风险延续下去。如果没有强有力的保护措施和最佳实践来确保数据准确性、设置记忆保留边界和有效管理记忆,记忆模块就可能既成为洞察的宝库,又成为层层递进的网络漏洞和风险的源头。
五、需求、解决方案和责任预测
在AI智能体快速发展的时代,为提升网络防御能力,必须采取积极主动、平衡且适应性强的战略。取得适当的平衡意味着鼓励政策制定者、最终用户和开发者认识并充分利用AI智能体带来的优势,同时预测并应对其可能放大或引入的网络安全风险。
以下建议适合支持和指导AI智能体发展的政策需求、新兴技术解决方案以及负责任的设计和部署策略。
1、政策需求
(1)制定自愿的、特定行业的人机协作指南
行业监管机构应制定自愿、针对特定行业的指导方针,以支持安全、透明和以人为本地部署智能体。
这些指南并非规定一套僵化、一刀切的强制要求,而是应该鼓励包括人工智能实验室、私营企业和大学在内的各组织机构,定义量身定制的人机交互框架。这些框架应明确何时可以部署智能体,在何种条件下可以自主行动,是否允许智能体独立学习,何时需要人工监督,发生故障时如何分配责任,以及有哪些用于检测、升级和纠正错误的协议。其目标是确保智能体能够支持(而非取代)人类的决策和才能,尤其是在医疗保健和国家安全等敏感领域。
鉴于AI智能体有可能重塑劳动力格局,并推动“人工智能人才革命”,这些指南还应通过提供重新设计工作岗位,以及重新培训或提升现有员工技能的建议,促进组织做好人机协作的准备。这些指南还应强调负责任的部署策略,例如渐进式部署、权限边界和实时升级协议,这些策略应针对智能体和人类可能交互的团队环境量身定制。
(2)扩大和促进信息共享和利益相关者在应对智能体风险方面的合作
鉴于AI智能体有可能成为进攻、防御和对抗性网络作战的力量倍增器,它们需要同样协调一致且充满活力的策略,以便及时、跨部门地共享有关新出现的智能体风险、观察到的意外智能体行为、部署挑战以及成功的风险缓解策略的信息。具体而言,政府机构应与特定行业的监管机构和行业利益相关者合作,扩大信息共享论坛,并开发用于测试和评估智能体安全性和性能的公开可用的软件工具和资源。这些工作应强调特定用例的透明度,例如匿名事件报告和对抗性测试结果,以加速集体学习和网络防范。
(3)优先投资公私合作伙伴关系,以推进智能体安全和评估
政府部门应优先投资持续性的研发计划,旨在强化AI智能体全生命周期的网络安全防御体系。尽管私营企业天然具备保障自身产品安全的内生动力,但诸如模型劫持、记忆污染、多智能体涌现行为等跨系统风险,将渗透于各类专有系统之间,且面临责任主体不明与追责机制缺失的困境。
在智能体风险跨领域且涉及基础设施的情况下,政府可以发挥有限但至关重要的作用,支持基础研究并确保关键研究成果公开,从而促进更广泛的协调,并为智能体开发者和研究人员提供知情的风险缓解措施。这可以包括资助对抗性测试、特定于智能体的风险建模,以及侧重于记忆完整性和自主决策等架构特征的弹性评估。扩大AI智能体的劫持风险评估工作的规模,需要在竞争性拨款、跨学科研究中心和公私合作伙伴关系方面进行额外投资,以加速跨部门的知识共享和创新。
2、新兴技术解决方案
(1)推进并应用自动移动目标防御 (AMTD) 功能,以破坏不断发展的攻击途径
AMTD 是一种旨在通过改变 IP 地址、动态分配内存或或转移控制路径——主动复杂化对抗方的侦察活动,从而削弱系统的可预测性。当与AI智能体的自主和持续自我改进能力相结合时,AMTD 系统可以轮换访问权限、打乱 API 端点或重新随机化内部配置,以限制对抗性探测尝试的持久性或提示注入攻击。预计这些技术在边缘计算环境中特别有用,在这种环境中,智能体需要在分布式且通常相互依赖的数字环境中运行时保持灵活性和响应能力。
(2)调整并实施幻觉检测工具以进行持续智能体安全监控
幻觉检测工具最初是为了提高 LLM 输出的质量控制能力和准确性而开发的,如今正迅速被重新用于智能体安全,以便在推理缺陷和差距、异常或可疑行为以及低置信度输出到达行动模块之前识别它们。新兴的幻觉检测工具通过使用内部一致性检查、多源事实验证和即时响应跟踪来监视错位,尤其是在对抗性或高压力条件下。在AI智能体的背景下,这些幻觉检测工具已被证明能够成功揭示受损的记忆回忆、模型漂移和推理异常,所有这些对于帮助开发人员在漏洞被攻击者利用之前识别它们至关重要。
(3)开发并采用智能体标识符和可追溯性工具来改进监督
为了提高可解释性和监督性,人工智能研究人员和开发人员应继续创建识别基础设施和持久工具,以便跟踪和记录智能体活动的整个过程,包括智能体的初始和扩展数据收集策略;第三方依赖项和工具应用程序;已完成的任务;待处理的操作;推理逻辑流;以及记忆回忆。这种方法建立在现有的嵌入式出处追踪和数字审计策略之上,这些策略用于实现实时行为分析、版本控制追踪、验证软件供应链依赖关系和最终用户贡献以及事后取证。智能体 ID 的持续开发——它记录特定于实例的信息,例如交互系统和交互历史记录——代表了模型开发的实践基础,就像使用序列号来追踪产品及其历史记录一样。这些标识符还可以帮助追踪人工智能系统的来源、认证和性能。这种增强的可见性和改进的智能体可解释性将为网络从业人员、人工智能研究人员和开发人员以及最终用户提供检测可疑活动、归因于有罪的攻击者以及开展事件调查所需的动态情报。
3、面向开发人员和用户的负责任设计和部署策略
(1)保持强大的网络安全最佳实践
网络安全基础仍然至关重要,但现在必须扩展到智能体基础设施堆栈的每一层。在设计新的AI智能体或调整现有智能体,以适应定制应用时,应实施核心网络最佳实践,例如强大的身份和访问管理、安全的 API 使用以及零信任架构。这些措施有助于降低智能体工作流程中发生级联故障的风险,并维护系统完整性。随着智能体的自主性不断增强,保持强大的网络安全最佳实践仍然是第一道防线。
(2)为明确定义的任务设定智能体范围和自主权的界限
在设计和部署智能体之前,组织机构、开发人员和最终用户应明确定义并记录智能体的预期范围、目的、任务参数和分级权限级别。这种做法至关重要,因为它可以降低意外后果的风险,提高智能体的可靠性,并减轻智能体漂移、错位和越权的可能性。组织机构还应更新内部政策,概述可接受的智能体设计和部署策略,并培训员工如何负责任地使用智能体来履行各自的角色和职责。
(3)使用内置评估和回滚协议逐步部署 AI 智能体
负责任且安全地部署AI智能体需要迭代测试和持续监控。 组织机构和最终用户应始终致力于逐步引入智能体,从沙盒环境开始,通过分阶段试点项目逐步升级,同时在智能体部署的每个阶段定期进行红队演练、运行自动压力测试并准备回滚协议。
这使得开发人员和最终用户能够持续观察AI智能体在现实世界中的行为,实时识别表面的新风险,随着时间的推移校准智能体的性能,并在智能体开始完成有害任务或超出其定义的目的和工作范围时有效地进行纠正。
六、结论
AI智能体的兴起标志着新兴技术与数字世界互动、解读和影响方式的显著转变。AI智能体越来越多地被称为人工智能创新的“第三次浪潮”,它代表着对依赖人类持续监督和干预的被动模式的突破。AI智能体具备自主行动、推理和通过经验学习的能力,有望重新定义人机协作的模式。
这些智能体的进步也带来了复杂的治理问题和网络安全挑战。随着AI智能体承担越来越多的决策角色和责任,它们的行动可能越来越多地反映其底层模型中嵌入的假设、优先级和约束。确保这些系统安全可靠并与明确的目标保持一致,仅仅依靠技术手段是不够的;它需要行业、政府和公众等利益相关者的协调努力。我们的监管框架和风险管理策略也必须与AI智能体同步发展,以实现有效的监管,支持负责任的设计和部署,并降低新兴风险。
虽然无法完美预测AI智能体将对我们的工作、学习和生活方式产生的所有长期影响,但可以肯定的是,我们的治理和网络安全责任才刚刚开始。通过建立平衡灵活的保障措施,智能体系统可以以最大化其效益的方式部署,同时主动降低可能引入或放大的网络安全风险。
除了本研究概述的建议之外,未来仍有许多研发机会,从可扩展的审计机制和实时监控工具,到与基础设施无关的保障措施和智能体间交互标准。
此外,随着AI智能体的跨境开发和部署,对可接受使用和可行发展战略的自愿和共享的全球治理规范的需求将只会增长。最终,当务之急不仅仅是跟上新兴技术的步伐,而是引导和塑造其发展轨迹,确保它们能够增强人类的才能和技能,巩固技术领导地位和经济竞争力。
关于作者
黄海曼 美国政策研究智库R街研究所 (R Street Institute) 网络安全与新兴威胁研究员
蒂芙尼·萨德斯 坦福福特多尔西国际政策项目硕士生
声明:本文来自虎符智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。