SOC中的大模型：安全运营中心人机协作研究

工作来源

S&P 2026

工作背景

安全运营中心（SOC）的分析人员长期面临着两大难题：海量误报带来的“告警疲劳”和极高的认知负荷，业界期望大模型的应用可以缓解这一问题。业界在铺天盖地炒作“AI Agent 将取代安全分析师”、“大模型实现完全自动化SOC”，业务人员实际使用AI的情况到底如何？大模型在实际场景中如何进行人机交互，可以辅助决策吗？帮助解决什么类型的告警？

工作设计

对于每个提示词，由两名研究人员首先独立对抽取出的样本进行了人工阅读和打标签，通过多轮迭代协商，最终构建了一个包含 12 个主类别和 47 个子类别的“SOC大模型意图分类法“。

为了让研究结果具有全球通用性，将其映射到美国国家标准与技术研究院（NIST）发布的国家网络安全教育倡议（NICE）框架中，该框架详细定义了网络安全工作者的任务和能力要求，体现了网络安全防御的核心专业技能栈。

还要统计会话的轮数（一问一答算一轮），以评估分析师是将大模型视为一个“对话伙伴”还是一个“高级搜索引擎”。

工作准备

该研究由澳大利亚 CSIRO Data61 联合全球知名MDR服务商 eSentire 的研究人员共同完成。所以通过 Azure OpenAI API 搭建了一个内部的、企业级的大模型交互界面（底层调用 GPT-4 模型），这确保了输入的数据不会被 OpenAI 用于模型训练，充分保证了客户的隐私。收集了从 2023 年 5 月到 2024 年 3 月（共 10 个月）的数据。涉及45 名一线分析人员，共计产生了 3090 次独立的会话查询。

45 名一线分析人员具体的岗位职责如下所示，需要注意的是这是自愿参加的并非实际角色配比。

少数分析人员频繁使用，大多数分析人员其实用的并不多。

最初大家使用的都不多，后续使用大模型的意愿在逐渐增长。

工作评估

① 大模型被用于数据处理而非决策，分析人员掌握定性研判权

分析人员几乎不会向大模型直接询问“这个 IP 是不是恶意的？”或“是否应该隔离这台主机？”。较为常见的查询是“遥测数据解析”与“解码/去混淆”，例如让大模型解释晦涩的 Windows Event ID 4688 的命令行参数，或者解析一段 Base64 编码的 PowerShell 脚本。

② 大模型在报告撰写与沟通上很受倚重

第二大类的使用是沟通与文案撰写，分析人员频繁使用大模型将技术术语“翻译”成非技术受众（如企业高管）能听懂的事件摘要，或者用来润色安全分析报告。

③ 交互通常扁平化，几乎不存在深度交互

高达 41% 的会话仅有单轮交互（一问一答），绝大部分会话不超过 3 轮。分析人员尚未将大模型视为可以协同作战的“虚拟同事”，还只是将其当作一个“智能搜索引擎”来用。往往是按照工作流分层的，逐渐加深对大模型的使用。

④ 用户检索与NICE框架适配度很高

高达 93% 的查询可以完美映射到 NICE 框架中的“网络防御分析”和“威胁分析”核心任务，这说明大模型可以量身定制支持特定任务工作。

⑤ 不同分析人员的使用方式差异很大，也反映了用户的的倾向性。有些人在各种任务中都使用大模型辅助，有些人只在特定的任务上使用大模型。

⑥ 只有约 4% 的查询是让大模型判断是否恶意/是否威胁。从现状来看，分析人员还并不信任让 AI 来做最终判决。目前只是将大模型作为“外骨骼”，来处理苦活和累活。

工作思考

这篇研究的数据可以让我们跳出“AI 能做什么”的厂商 PPT，去直视“分析师需要 AI 做什么”的客观现实。现在的大模型可能仍然与数据是割裂的，未来的大模型辅助要实现与遥测平台的深度集成，直接原生读取上下文信息。而且做一个脱离工作流的“通用网络安全问答机器人”是伪需求。真正有价值的产品形态可能是“无感知的帮手”。例如，当 EDR 弹出一个告警时，平台已经在后台调用大模型完成了该告警中混淆命令的解码，并自动生成了一段人类可读的上下文摘要，直接展示在工单旁边。分析师不需要主动去“聊”，而是直接在大模型整理好的证据板上进行裁决。

在新时代入行的分析人员，如果过度依赖大模型的解析结果，是不是可能存在丧失底层理解能力的风险。传统的分析人员是一点点成长起来的，大模型也应该将思维链对外暴露，这样分析人员可以从大模型的思考过程中学到相应知识。

声明：本文来自威胁棱镜，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

SOC中的大模型：安全运营中心人机协作研究

AI私人助手会被偷偷篡改记忆：揭秘隐形内存注入攻击

单个协议都没错，Agent组合后却越权：形式化分析揭示30个跨协议安全失败

工具没坏，Agent却选错了：AI Agent的机器社会工程风险