OpenAI称提示词注入攻击难以根除，将成为AI时代的“流行病”

前情回顾·OpenAI的网络安全动态

安全内参12月25日消息，尽管OpenAI正努力加固其Atlas AI浏览器以抵御网络攻击，但该公司承认，提示注入这种通过操纵AI代理、使其遵循恶意指令的攻击形式在短期内不会消失。相关指令往往隐藏在网页或电子邮件中。这也引发了人们对AI代理在开放网络环境中究竟能多安全运行的质疑。

本周一，OpenAI发布了一篇博客文章，详细介绍了其如何持续强化Atlas的防护能力，以应对层出不穷的攻击。文章指出：“提示注入就像网络上的诈骗和社会工程一样，不太可能被完全‘解决’。”OpenAI也承认，ChatGPT Atlas中的“代理模式”会“扩大安全威胁面”。

提示词注入攻击将长期存在

OpenAI在今年10月推出ChatGPT Atlas浏览器，安全研究人员当时随即了发布攻击演示，展示只需在Google Docs中写下几句话，就能改变底层浏览器的行为。同一天，Brave发布了一篇博客文章，将间接提示注入定义为AI驱动浏览器（包括Perplexity的Comet）面临的一项系统性挑战。

OpenAI并非唯一认识到基于提示的注入攻击不会消失的公司。本月早些时候，英国国家网络安全中心警告称，针对生成式AI应用的提示注入攻击“可能永远无法被完全缓解”，这将使网站面临数据泄露的风险。这家英国政府机构建议网络安全专业人士降低提示注入的风险和影响，而不是认为这些攻击可以被“阻止”。

OpenAI则表示：“我们将提示注入视为一项长期的AI安全挑战，需要持续加强针对它的防御。”

OpenAI实施以AI保护AI策略

面对这一看似徒劳无功的任务，OpenAI选择采用一套主动、快速响应的循环机制。目前，这套机制已初步帮助OpenAI在攻击“在野外”被利用之前，于内部发现新型攻击策略。

上述策略与Anthropic和谷歌等竞争对手的思路并无本质差异：为了对抗持续存在的基于提示的攻击风险，防御措施必须是分层的，并且需要不断进行压力测试。例如，谷歌近期的相关工作就侧重于为代理型系统提供架构层面和策略层面的控制。

不过，OpenAI的不同之处在于“基于大模型的自动化攻击者”。这种攻击者本质上是一个机器人，OpenAI通过强化学习对其进行训练，让它扮演黑客角色，寻找向AI代理悄然注入恶意指令的方法。

该机器人可以先在仿真环境中测试攻击，再将其应用于现实场景，而模拟器会展示目标AI在遭遇攻击时的思考方式以及可能采取的行动。随后，机器人可以分析这些响应，对攻击进行微调，并反复尝试。对目标AI内部推理过程的这种洞察，是外部人员无法获得的，因此从理论上看，OpenAI的机器人应当能够比现实世界中的攻击者更快发现漏洞。

这是AI安全测试中一种常见的策略：构建一个代理来寻找边界情况，并在仿真环境中快速对这些情况进行测试。

该策略可发现全新的攻击手法

OpenAI表示：“我们经过强化学习训练的攻击者，可以引导代理执行复杂、跨度较长的有害工作流，这些流程可能在几十步甚至上百步中逐步展开。我们还观察到了一些新颖的攻击策略，这些策略并未出现在我们的人类红队测试或外部报告中。”

图片来源：OpenAI

在一段演示中（部分内容如上图所示），OpenAI展示了其自动化攻击者如何将一封恶意电子邮件悄然塞进用户的收件箱。当AI代理随后扫描收件箱时，它遵循了邮件中隐藏的指令，发送了一封辞职邮件，而不是起草一条外出自动回复。不过，据该公司介绍，在安全更新之后，“代理模式”已能够成功检测到这次提示注入尝试，并向用户发出警告。

OpenAI表示，尽管提示注入难以做到万无一失的防护，但公司正依靠大规模测试和更快的补丁周期，在这些攻击出现在现实世界之前加固其系统。

一名OpenAI发言人拒绝透露Atlas的安全更新是否在可衡量层面上降低了成功注入的数量，但表示公司自发布之前起便一直与第三方合作，以增强Atlas对提示注入的防护能力。

防治“流行病”还需多方协作

网络安全公司Wiz的首席安全研究员Rami McCarthy指出，强化学习是持续适应攻击者行为的一种方式，但它只是整体图景中的一部分。

McCarthy表示：“评估AI系统风险的一个有用方法，是用自主性乘以访问权限。”

他进一步表示：“代理型浏览器正好处在一个相当棘手的区间：自主性不算低，且访问权限却非常高。许多当前的建议正是反映了这种权衡。限制已登录访问主要是为了降低暴露面，而要求对确认请求进行审查，则是对自主性的约束。”

这也正是OpenAI向用户提出的两项降低自身风险的建议。一名发言人还表示，Atlas在发送消息或进行支付之前，也会被训练去获取用户确认。OpenAI同时建议用户向代理提供更具体的指令，而不是简单地赋予其对收件箱的访问权限，并告诉它“采取任何必要的行动”。

OpenAI表示：“过于宽泛的自由裁量权会让隐藏或恶意内容更容易影响代理，即便已经设置了安全防护措施。”

尽管OpenAI称，保护Atlas用户免受提示注入攻击是其首要任务，但McCarthy对这种高风险浏览器的投资回报率仍持一定怀疑态度。

McCarthy对TechCrunch表示：“对于大多数日常使用场景而言，代理型浏览器目前尚未提供足够的价值，来证明其在当前风险状况下是合理的。由于它们能够访问电子邮件和支付信息等敏感数据，风险非常高，尽管正是这种访问权限让它们变得强大。这种平衡关系未来可能会发生变化，但在当下，这种取舍仍然是真实存在的。”

参考资料：https://techcrunch.com/2025/12/22/openai-says-ai-browsers-may-always-be-vulnerable-to-prompt-injection-attacks/

声明：本文来自安全内参，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

OpenAI称提示词注入攻击难以根除，将成为AI时代的“流行病”

物理隔离也能传数据？揭秘苹果Find My网络的隐蔽数据通道

40倍降本、0.05%拒绝率：Anthropic新一代Constitutional Classifiers解读

当AI Coding编出不存在的包：53个可注册幻觉依赖如何变成供应链入口