谷歌如何实现高质量、可扩展和现代化的威胁检测

本文翻译自 Google Cloud 官方博客原文链接：https://cloud.google.com/transform/how-google-does-it-modernizing-threat-detection 。

介绍：文章深入探讨了谷歌如何应对大规模、现代化的网络安全挑战。分享了其威胁检测与响应团队的核心原则和实践，包括如何通过高度自动化、跨团队协作、全面的资产管理、独特的“谁开发，谁负责”警报处理模式以及将安全视为软件工程的理念，成功地将威胁驻留时间从行业平均的数周缩短至数小时。

您是否想过谷歌是如何保障安全的？作为我们全新“谷歌解密”系列的一部分，我们将直接邀请谷歌专家，分享关于谷歌如何应对当今一些最紧迫的安全主题、挑战和担忧的见解、观察和重要提示。在本期中，我们邀请到了来自 CISO 办公室的安全顾问 Anton Chuvakin 和谷歌检测与响应总监 Tim Nguyen，他们将共同深入介绍谷歌现代化威胁检测与响应方法的核心方面和原则。

谷歌的威胁检测与响应团队负责在整个谷歌和 Alphabet 范围内追查恶意的系统和网络活动。该团队的职责范围涵盖了全球最大的 Linux 集群、几乎所有可用的操作系统、Google Cloud 的基础设施和服务，以及超过 18 万名员工。

我们依赖一个检测引擎，该引擎结合了多个不同的代码引擎协同工作，以处理日志、应用情报并将其转化为可用的信号。我们的流程首先将大量的日志流式传输到我们的云数据仓库中，这使我们能够快速查询可追溯数月的整个日志数据集。

当我们发现一个需要进一步调查的信号时，它会被路由到一个分类队列，由检测团队的成员进行审查、上报并在必要时进行修复。当新的失陷指标（Indicators of Compromise, IoC）出现时（通常是通过新的情报、改进的信号和更广泛的覆盖范围），我们有能力自动审查所有过去的信号和设备，以查看它们是否受到这些新指标的影响。

所有这些努力都可能感觉像是一场艰苦的战斗，尤其是在您试图将它们扩展到整个组织时。我们希望最大限度地减少接收和处理相同信息所花费的时间，以便我们能够尽可能高效地开始做出关键决策。

在谷歌，检测与响应团队遵循服务水平目标（SLO），以迅速检测和响应威胁。我们这样做是为了尽可能地缩短驻留时间（攻击者在被检测到之前在网络上活跃的时间）。虽然行业平均驻留时间为数周，但我们已将驻留时间缩短至数小时。

那么，我们如何在实现这一快速响应目标的同时，在我们庞大的环境中扩展我们的检测和响应能力呢？下面，我们将分享一些帮助我们创造威胁检测成功秘诀的关键要素。

1. （几乎）实现一切自动化

当我们被要求调查是否存在失陷指标（IoC）时，我们必须检查每一个角落。面对如此庞大的规模和如此多类型的 IoC，手动操作是行不通的。

我们的座右铭是：减少信息收集，更多直接分析。我们相信人类在理解细微差别、做出判断和处理模糊信息方面具有独特的优势。我们希望尽可能地增强上下文构建，让我们的团队有更多时间做出正确的决策。

我们使用机器来自动化大部分重复的事件分析或调查步骤。理想情况下，我们尝试自动检索大部分机器遥测数据、用户信息和进程执行情况。

大约 97% 的事件是通过自动化的“追捕”生成的，然后连同一个风险评分和调查方向的详细信息一起呈现给人类。这使我们能够在更短的时间内对事件进行分类。

自动化的另一个真正胜利是我们能够降低调查事件的成本。我们已经能够大幅降低处理单个事件的单位工单成本，同时增加我们能够处理的事件数量。当然，生成式 AI 也广泛用于自动化。例如，大型语言模型生成的草稿将工程师撰写高管摘要的时间减少了 53%。

同时，我们总是为人类的专业知识留有空间，但总体目标是确保我们正在增加价值并朝着更大的目标迈进——而不是将我们的精力和努力浪费在重复性任务上。

2. 协作以实现更强大的检测

一个至关重要但常常被忽视的事实是，任何检测与响应团队都无法孤立地有效工作。成功的威胁检测需要与不同部门、团队和利益相关者进行密切、持续的协作。

在谷歌，我们所有的威胁追捕，无论是手动的还是自动的，都始于威胁建模。如果不真正了解您正在追查的目标，就不可能创建出好的检测规则，因此我们总是从与项目负责人交谈开始。

一旦我们了解了想要检测的威胁类型，我们就会审查现有的日志，以确定我们是否拥有支持我们工作的所有遥测数据。如果缺少任何信息，我们会与团队合作以生成额外的日志。改进日志、呈现正确的调查信息以及有效响应攻击的过程是持续且协作的。

3. 建立资产清单

在过去，您不得不在没有任何资产清单或历史记录的情况下进行事件响应。如果您没有意识到某一类资产的存在，它们可能会成为进入您基础设施的完美入口点。

我们认为，资产清单对于保护您的整个基础设施至关重要，并且可以在检测和响应威胁时帮助回答关键问题。云环境在这里可以提供巨大的优势，因为您可以自动盘点所有内容，长时间保留资产创建历史记录，并以编程方式查询您的基础设施。

4. 谁开发，谁分类

在谷歌，编写检测规则的人和响应信号的人是同一批人。

这是基于一个非常简单的规则：如果您不负责设计警报，您会在意它是否在凌晨 3:00 触发吗？

在威胁检测组织中，一个更常见的做法是将编写检测规则的团队与分类警报的团队分开。然而，这种动态可能会造成许多不必要的紧张关系。警报疲劳是一个非常现实的问题。我们发现，让编写检测规则的同一个团队也负责对其进行分类，可以为检测质量带来更多的责任感，并防止警报失控。

5. 安全工程就是软件工程

软件工程现在是每个安全学科的核心。运营一个云——以及一个能够保护该云的检测基础设施——需要每天编写代码。

我们所有的安全工程师都需要知道如何读写代码。我们期望我们的安全工程师能够承担广泛的职责，包括威胁建模、日志采集、数据建模、信号开发、分析自动化和分类，以及事件响应。

提高我们团队的工程技能也帮助我们增加了可以构建的自动化，并最终减少了重复性繁琐工作。这种方法还包括采用许多软件工程的最佳实践，包括记录我们的代码、监控和跟踪我们的进展、对我们的检测进行压力测试和验证，以及每周进行审查。

在理想的世界中，您可以购买一个工具并按几个按钮来启动和运行检测，但现实是检测就是代码。为检测采用工程实践不仅可以提高您的检测和信号的质量，还可以使您能够在整个组织范围内扩展检测和响应。

声明：本文来自先进攻防，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

谷歌如何实现高质量、可扩展和现代化的威胁检测

1. （几乎）实现一切自动化

2. 协作以实现更强大的检测

3. 建立资产清单

4. 谁开发，谁分类

5. 安全工程就是软件工程

网商银行API流量全链路可信防护体系演化与实践

智能守护，精准溯源：大模型赋能金融终端数据安全新实践

AI软件工程实践：构建企业级Agentic SOC平台