工作来源

S&P 2026

工作背景

安全运营中心(SOC)的分析人员长期面临着两大难题:海量误报带来的“告警疲劳”和极高的认知负荷,业界期望大模型的应用可以缓解这一问题。业界在铺天盖地炒作“AI Agent 将取代安全分析师”、“大模型实现完全自动化SOC”,业务人员实际使用AI的情况到底如何?大模型在实际场景中如何进行人机交互,可以辅助决策吗?帮助解决什么类型的告警?

工作设计

对于每个提示词,由两名研究人员首先独立对抽取出的样本进行了人工阅读和打标签,通过多轮迭代协商,最终构建了一个包含 12 个主类别和 47 个子类别的“SOC大模型意图分类法“。

为了让研究结果具有全球通用性,将其映射到美国国家标准与技术研究院(NIST)发布的国家网络安全教育倡议(NICE)框架中,该框架详细定义了网络安全工作者的任务和能力要求,体现了网络安全防御的核心专业技能栈。

还要统计会话的轮数(一问一答算一轮),以评估分析师是将大模型视为一个“对话伙伴”还是一个“高级搜索引擎”。

工作准备

该研究由澳大利亚 CSIRO Data61 联合全球知名MDR服务商 eSentire 的研究人员共同完成。所以通过 Azure OpenAI API 搭建了一个内部的、企业级的大模型交互界面(底层调用 GPT-4 模型),这确保了输入的数据不会被 OpenAI 用于模型训练,充分保证了客户的隐私。收集了从 2023 年 5 月到 2024 年 3 月(共 10 个月)的数据。涉及45 名一线分析人员,共计产生了 3090 次独立的会话查询。

45 名一线分析人员具体的岗位职责如下所示,需要注意的是这是自愿参加的并非实际角色配比。

少数分析人员频繁使用,大多数分析人员其实用的并不多。

最初大家使用的都不多,后续使用大模型的意愿在逐渐增长。

工作评估

① 大模型被用于数据处理而非决策,分析人员掌握定性研判权

分析人员几乎不会向大模型直接询问“这个 IP 是不是恶意的?”或“是否应该隔离这台主机?”。较为常见的查询是“遥测数据解析”与“解码/去混淆”,例如让大模型解释晦涩的 Windows Event ID 4688 的命令行参数,或者解析一段 Base64 编码的 PowerShell 脚本。

② 大模型在报告撰写与沟通上很受倚重

第二大类的使用是沟通与文案撰写,分析人员频繁使用大模型将技术术语“翻译”成非技术受众(如企业高管)能听懂的事件摘要,或者用来润色安全分析报告。

③ 交互通常扁平化,几乎不存在深度交互

高达 41% 的会话仅有单轮交互(一问一答),绝大部分会话不超过 3 轮。分析人员尚未将大模型视为可以协同作战的“虚拟同事”,还只是将其当作一个“智能搜索引擎”来用。往往是按照工作流分层的,逐渐加深对大模型的使用。

④ 用户检索与NICE框架适配度很高

高达 93% 的查询可以完美映射到 NICE 框架中的“网络防御分析”和“威胁分析”核心任务,这说明大模型可以量身定制支持特定任务工作。

⑤ 不同分析人员的使用方式差异很大,也反映了用户的的倾向性。有些人在各种任务中都使用大模型辅助,有些人只在特定的任务上使用大模型。

⑥ 只有约 4% 的查询是让大模型判断是否恶意/是否威胁。从现状来看,分析人员还并不信任让 AI 来做最终判决。目前只是将大模型作为“外骨骼”,来处理苦活和累活。

工作思考

这篇研究的数据可以让我们跳出“AI 能做什么”的厂商 PPT,去直视“分析师需要 AI 做什么”的客观现实。现在的大模型可能仍然与数据是割裂的,未来的大模型辅助要实现与遥测平台的深度集成,直接原生读取上下文信息。而且做一个脱离工作流的“通用网络安全问答机器人”是伪需求。真正有价值的产品形态可能是“无感知的帮手”。例如,当 EDR 弹出一个告警时,平台已经在后台调用大模型完成了该告警中混淆命令的解码,并自动生成了一段人类可读的上下文摘要,直接展示在工单旁边。分析师不需要主动去“聊”,而是直接在大模型整理好的证据板上进行裁决。

在新时代入行的分析人员,如果过度依赖大模型的解析结果,是不是可能存在丧失底层理解能力的风险。传统的分析人员是一点点成长起来的,大模型也应该将思维链对外暴露,这样分析人员可以从大模型的思考过程中学到相应知识。

声明:本文来自威胁棱镜,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。