LlamaFirewall：为AI量身打造的开源安全防火墙

随着大语言模型（LLM）从聊天机器人跃升为高信任度的自主系统核心，围绕其安全性的挑战也日益严峻。

近日，Meta发布了首个重量级为AI防火墙——LlamaFirewall，一款开源系统级安全框架，以模块化设计为基础，支持多层次、自适应的防御机制，旨在防范包括“越狱攻击”“提示注入”“目标劫持”与“危险代码输出”等在内的多种AI安全风险。

为什么Meta要推出LlamaFirewall？

“当前的大模型已经具备作为自主智能代理运行的能力，但原有的安全机制根本没有为此类复杂性而设计。”Meta安全工程师 Sahana Chennabasappa 表示，这种脱节正导致企业在部署AI系统时出现危险的安全盲区。

尤其是在编程相关的应用中，大模型所生成的代码一旦直接被下游系统引用，就可能无意中引入漏洞。“多步推理能力的不匹配，也可能导致AI代理执行远远超出用户意图的操作，”Chennabasappa指出。这类问题已经在代码辅助工具和自主研究代理中有所体现，且随着智能代理系统普及，将只会更加突出。

然而，与大模型集成的关键业务流程愈加复杂，配套的安全基础设施却仍处于早期阶段。“现有安全机制大多集中于内容过滤，例如防止聊天机器人输出虚假或有害信息，这种做法过于狭隘。”她强调，真正的安全挑战来自于更深层的系统性风险，例如提示注入、代码解释器滥用以及不安全代码生成等。

为应对这些日益复杂的威胁，Meta团队打造了LlamaFirewall—1个专为大模型代理系统量身设计的安全防线。

LlamaFirewall有哪些独特之处？

LlamaFirewall不仅仅是一个防火墙，更是一套系统级安全架构，具有高度模块化和扩展性，支持开发者按需构建自定义安全策略。它核心设计围绕两个重点风险类别展开：提示注入/代理目标偏移与危险代码生成。

框架内置了三大安全组件：

此外，LlamaFirewall还支持正则表达式（Regex）和基于大模型的可配置检测机制，方便开发者根据具体应用威胁模型进行自定义扩展。

构建协同安全生态的“防火墙语言”

LlamaFirewall通过统一的策略引擎整合所有防御机制，开发者可以通过该引擎：

Chennabasappa称：“我们希望LlamaFirewall成为大模型时代的Snort、Zeek或Sigma，帮助研究者、开发者、运营人员共享策略、组合防线，并实时适应新兴威胁。”

面向未来的开源安全架构

作为一款开放源码、注重可组合性的工具，LlamaFirewall支持在各种AI系统中部署，无论是开源还是闭源平台，只要允许开发者引入额外安全机制，均可接入。

Chennabasappa强调：“我们借鉴了Meta在大规模生产环境中的经验，希望通过这一架构帮助行业安全地发展AI应用。”

相较于限制透明度和灵活性的专有系统，LlamaFirewall的开源设计支持社区共建插件、规则和检测器，从而提升AI安全的可信度与适应性。

目前，LlamaFirewall的重心仍聚焦于提示注入与不安全代码输出两个高优先级风险。但未来Meta计划将其扩展至更多高风险行为检测，包括恶意代码执行、不安全工具使用等，覆盖AI代理生命周期的更多安全环节。

LlamaFirewall已免费开放下载

地址：https://github.com/meta-llama/LlamaFirewall

声明：本文来自GoUpSec，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

零信任的下一个热点：存储