随着大语言模型(LLM)从聊天机器人跃升为高信任度的自主系统核心,围绕其安全性的挑战也日益严峻。

近日,Meta发布了首个重量级为AI防火墙——LlamaFirewall,一款开源系统级安全框架,以模块化设计为基础,支持多层次、自适应的防御机制,旨在防范包括“越狱攻击”“提示注入”“目标劫持”与“危险代码输出”等在内的多种AI安全风险。

为什么Meta要推出LlamaFirewall?

“当前的大模型已经具备作为自主智能代理运行的能力,但原有的安全机制根本没有为此类复杂性而设计。”Meta安全工程师 Sahana Chennabasappa 表示,这种脱节正导致企业在部署AI系统时出现危险的安全盲区。

尤其是在编程相关的应用中,大模型所生成的代码一旦直接被下游系统引用,就可能无意中引入漏洞。“多步推理能力的不匹配,也可能导致AI代理执行远远超出用户意图的操作,”Chennabasappa指出。这类问题已经在代码辅助工具和自主研究代理中有所体现,且随着智能代理系统普及,将只会更加突出。

然而,与大模型集成的关键业务流程愈加复杂,配套的安全基础设施却仍处于早期阶段。“现有安全机制大多集中于内容过滤,例如防止聊天机器人输出虚假或有害信息,这种做法过于狭隘。”她强调,真正的安全挑战来自于更深层的系统性风险,例如提示注入、代码解释器滥用以及不安全代码生成等。

为应对这些日益复杂的威胁,Meta团队打造了LlamaFirewall—1个专为大模型代理系统量身设计的安全防线。

LlamaFirewall有哪些独特之处?

LlamaFirewall不仅仅是一个防火墙,更是一套系统级安全架构,具有高度模块化和扩展性,支持开发者按需构建自定义安全策略。它核心设计围绕两个重点风险类别展开:提示注入/代理目标偏移与危险代码生成。

框架内置了三大安全组件:

  • PromptGuard2:一个低延迟、实时运行的通用“越狱”检测器,可精准识别用户输入和非信任数据中的直接越狱行为。

  • Agent Alignment Checks:首个开源的“链式思维审计器”,能够实时检查AI代理的推理过程,防范提示注入或目标被劫持等风险。

  • CodeShield:一款快速在线静态分析引擎,能够识别大模型生成的潜在不安全代码,防止安全漏洞进入生产环境。该组件曾作为Llama3发布的一部分亮相。

此外,LlamaFirewall还支持正则表达式(Regex)和基于大模型的可配置检测机制,方便开发者根据具体应用威胁模型进行自定义扩展。

构建协同安全生态的“防火墙语言”

LlamaFirewall通过统一的策略引擎整合所有防御机制,开发者可以通过该引擎:

  • 构建自定义检测与响应流程

  • 定义条件触发的补救策略

  • 插件式接入全新检测器与工具

Chennabasappa称:“我们希望LlamaFirewall成为大模型时代的Snort、Zeek或Sigma,帮助研究者、开发者、运营人员共享策略、组合防线,并实时适应新兴威胁。”

面向未来的开源安全架构

作为一款开放源码、注重可组合性的工具,LlamaFirewall支持在各种AI系统中部署,无论是开源还是闭源平台,只要允许开发者引入额外安全机制,均可接入。

Chennabasappa强调:“我们借鉴了Meta在大规模生产环境中的经验,希望通过这一架构帮助行业安全地发展AI应用。”

相较于限制透明度和灵活性的专有系统,LlamaFirewall的开源设计支持社区共建插件、规则和检测器,从而提升AI安全的可信度与适应性。

目前,LlamaFirewall的重心仍聚焦于提示注入与不安全代码输出两个高优先级风险。但未来Meta计划将其扩展至更多高风险行为检测,包括恶意代码执行、不安全工具使用等,覆盖AI代理生命周期的更多安全环节。

LlamaFirewall已免费开放下载

地址:https://github.com/meta-llama/LlamaFirewall

声明:本文来自GoUpSec,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。