介绍:
ChatGPT 发布和 OpenAI 的 API 成为企业用例的 18 个月后,我们现在已经对LLM的最佳用途有了一个很好的认识:利用特定领域的知识搜索、检索和解析庞大的数据集,从而自动执行重复性任务。要找到LLM的企业用例,请查找最大的数据集("数据引力"):客户支持、领域知识、日志和事件、客户和运营数据、销售和营销数据以及 IT 基础架构数据是其中最大的数据集。
为了应对基础模型的兴起以及为其提供支持的庞大训练数据集,企业和技术供应商正越来越多地投资于自身的可观测性和遥测数据,以建立防御能力。通过收集独特、深度整合的产品使用数据,它们创建了基础模型难以复制的专有数据资产。随着数据日益商品化,这些真正自有的数据正成为至关重要的竞争优势。随着数据源和云应用的兴起,安全作为一个领域已变得更像数据工程。
日志和事件通常是现代企业中容量最大的数据集(通常每天达 PB 级),其来源包括系统和应用程序日志、安全事件和网络流量。这些日志对于监控、诊断和合规至关重要。随着时间的推移,这些数据集会变得越来越庞大,并带来重大的数据工程问题。日志和事件还具有实时敏感性,超额成本也可能成为高管们的噩梦,因为他们对数据量和成本的预测有限。财富500强企业在可观测性数据上花费数千万到数亿美元并不罕见:OpenAI 向 Datadog 支付了超过 1 亿美元的费用,Coinbase 在 2023 年支付了 6500 万美元/年的费用,Capital One 支付了超过 5000 万美元的费用。因此,日志和事件是引入LLM的主要使用场景,因为系统和应用产生数据的数量和频率都很大。
可观测性市场是分散的,Datadog、Splunk 和 Dynatrace 等领先厂商各自占据不到 20% 的市场份额,合计收入超过 100 亿美元。此外,向多个 SIEM 产品发送数据的 Cribl 客户数量同比增长了 45%,因为不同的数据源需要不同的目的地,而且新的存储格式减少了锁定。Microsoft Sentinel 自推出以来,3 年内的总收入已超过 10 亿美元。可观测性总支出超过 300 亿美元,而且相当分散。Gartner 的一项调查发现,财富2000强企业平均拥有 7-10 种可观测性工具,每种工具都有自己的查询语言和数据模型。数据源的数量同比增长了 32%,超过三分之一的 Cribl 客户正在使用来自 10 个或更多数据源的数据。现代分布式系统每天都会产生 PB 级的遥测数据,数据格式多种多样,如日志、指标和追踪数据等,所有这些数据都来自不同的工具。
虽然这种方法适用于存储数据,但智能层却分散在各个数据孤岛中。真正的挑战不仅在于如何收集或存储这些数据,还在于如何快速理解这些数据,从而推动实现真正的业务价值。数据维度、开放式遥测技术的兴起以及存储中的开放表格式是重塑市场的关键趋势。有了可以读取异构数据格式的AI和LLM加持,复杂的数据挑战变得更容易应对。
安全可观测性数据模式基础:
可观测性是收集和分析数据以了解系统性能的全过程,由三大支柱组成。这三大支柱各有自己的数据类型和格式,历来需要特有的查询引擎和存储。
1.日志
性质:捕捉系统内事件的半结构化数据,数量极其庞大,包括用户操作、系统错误、访问日志等详细信息
关键属性:
结构化数据:时间戳、严重等级、服务和实例信息、追踪信息、基础用户和请求信息、基础错误详细信息、元数据。
非结构化数据:详细的事件描述、详细的用户和请求信息、详细的错误信息。
使用案例:调试、审计、追踪错误,服务器和应用程序捕获每个请求和响应
2.指标
性质:结构化的数字数据,代表一段时间内系统的定量状态,数量少于日志,因为指标是以固定间隔代表系统状态的数字数据点
使用案例:监控系统性能并追踪资源使用情况,如 GPU/CPU 使用情况、内存消耗、请求率和错误率
3.追踪
性质:半结构化、中等容量(远少于日志),可捕捉通过系统的请求的详细信息
结构化属性:trace ID、span ID、父span ID、服务名称、操作名称、时间戳、持续时间、状态代码、资源信息
非结构化属性:注释(如自定义信息或状态更新)、日志、标签(如可提供额外上下文的错误描述)、有关操作的元数据(如用户环境)。
使用案例:捕捉通过多个微服务的用户请求流,包括在每个服务中花费的时间;用于性能优化、识别瓶颈和了解端到端请求流
数据维度:
在数据处理和存储领域,尤其是日志数据,数据的维度和复杂性对其管理方式有很大影响。例如,Hydrolix 擅长处理大型多维事务日志,如 CDN 日志,这些日志记录了整个用户会话,包括在 Disney+ 等平台上的详细活动。这些日志不仅规模庞大,而且内容丰富,因此对于在不丢失任何数据的情况下进行长期存储和分析至关重要。Hydrolix 的方法旨在适应这些日志的高维性质,确保每项数据都能保留并可访问数年,这对于合规性和深入分析至关重要。
另一方面,微服务和容器化环境通常会生成规模较小、复杂程度较低的传统应用程序日志。这些日志通常频率较高,但单个价值较低,因此导致了诸如 Cribl 此类解决方案的发展。它能智能地过滤和删除价值较低的日志、指标和追踪。Cribl 的方法包括识别和丢弃低价值日志,同时将更相关的数据转发到 Splunk 等平台进行进一步分析。这种方法与 Hydrolix 的方法不同,后者的目标是保持所有数据的完整性,因为事务日志的维度和价值更高。这些策略共同强调了根据所管理数据的特定性质和维度定制数据处理和存储技术的重要性。
LLM在可观测性中的作用
因此,鉴于日志具有最大的数据量和最多的非结构化文本密集数据属性,LLM在这个场景下是最自然的选择。LLM在使用 NLP 解析和分析文本密集的日志方面应该非常有效,它可以对日志进行以下处理:
- 提取信息
: 从日志中识别并提取关键实体、错误信息和模式
- 异常检测
:检测指示系统问题的异常模式或异常现象。
- 总结
:生成日志数据总结,突出关键事件和趋势。
- 日志分类
:对日志条目进行分类和标记,以简化搜索和分析。
LLM在“指标”中的作用有限,因为它们通常是结构化和数值化的。期待厂商能够集成LLM中的一些先进技术,比如用自然语言总结指标的趋势或异常,或者基于数据趋势做预测分析。
追踪数据的有用性中等,在中等数据量下,考虑到结构化标识符与半结构化注释的混合,有一些优秀且可防御的用例。对于追踪数据,LLM可以更好地执行:
- 根本原因分析
:识别跟踪数据中可能表明性能瓶颈或错误的模式。
- 追踪分析
:了解并总结通过各种服务的请求流。
- 关联和上下文
:通过将追踪数据与日志和指标数据相关联来提供上下文,从而提供全面的系统行为视图。
- 预测性维护
:通过分析日志和模式,LLM 可以在系统故障或性能问题发生之前进行预测。
令人惊讶的是,深入研究后发现,安全领域数据工程的许多先进技术都是高度基于规则的,并且是从客户事件数据的数据模式中解释出来的,而不是基于训练有素的AI模型。规则层最初是从节约成本的规则开始的,例如哪些数据要路由到冷存储和比 Splunk 更便宜的系统,但也存在着以升级为重点的处理机会。通过将这些数据工程原则(传统上用于仓库的 ETL)应用于安全数据系统,Cribl 年收入已达到 2 亿美元,增长率达 70%,估值达 35 亿美元。这是他们的秘诀,也是定制配置 Kafka 规则的替代方案。
当今安全数据工程:
该图概述了从初始源(如网络数据、身份数据、云 APM 数据、CDN 数据和基础架构安全数据等)到数据处理、流式传输,最后到 SIEM 系统或数据湖存储的数据流。数据从这些源点开始,在这些源点产生大量数据;如前所述,这些数据是大多数企业中最大的数据集,这带来了许多挑战。Cribl 的报告分享了它所看到的最流行数据源的见解,其大多数企业客户都使用超过 10 种不同的数据源。Splunk 在所有数据源中最受欢迎,而 S3 等其他工具在快速增长的公司中很受欢迎,O365/Windows 事件日志在企业中最受欢迎。你可能注意到,该流程看起来很像围绕 Snowflake/DB 的传统数据工程。
由于成本过高,数据转换一直受到限制。因此,"预处理、过滤和丰富 "类工具(如 Cribl、Splunk DSP、Observo、Tarsal 和 Databahn 等新创公司)相对较新,采用新技术来清理、过滤和准备这些数据,确保优化数据以便进一步使用。对于初创公司来说,这些预处理公司最有机会,因为它们可以在不同供应商之间保持中立,有明显的成本节约投资回报率,也有明显的质量投资回报率。令人惊讶的是,人工智能在数据转换中的应用非常有限。
处理后的数据通常会进入 "数据流" 平台(如 Kafka、Pulsar、Flink),这些平台可处理实时数据流,对于需要即时洞察的应用来说至关重要。最后,数据被存储到 "传统 SIEM "系统(如 Splunk 和 Elastic)或 "数据湖"(如 Snowflake 和 Databricks)中,在那里可以对数据进行分析并长期保留。该图还重点介绍了 "下一代数据湖/SIEM "领域的新兴企业,如 Hydrolix 和 Runreveal,它们旨在利用先进的分析和存储功能来管理现代数据需求。这种结构化流程确保了数据从生成到存储的高效管理。这些下一代 SIEM 中,许多在节约成本方面都有类似的产品营销,只是通过不同的解决方案(如存储格式)来实现。
与数据源一样,我们发现 Splunk(Cribl 的大多数客户)和 S3 也是最常见的目的地。然而,我们发现在目的地方面,Splunk 的历史主导地位正日益分散,CrowdStrike 的 Falcon SIEM、Azure Logs(通过 Sentinel)和 Google SecOps 在 Cribl 用户群中的数据量增长均超过 250%。 今年,使用多种 SIEM 产品的公司增加了 73%。目标系统的碎片化程度不断提高,90% 以上的 Cribl 客户向 2 个以上的目标系统发送数据,12% 的客户向 4 个以上的目标系统发送数据,总体目标系统的年增长率为 15%。
Splunk 架构:转发器、索引器和搜索头
Splunk 的架构是围绕三个核心组件设计的:转发器、索引器和搜索头(the forwarder, the indexer, and the search head),每个组件都在数据收集、处理和查询中发挥着关键作用。转发器负责从传感器、API 和防火墙设备等各种来源收集数据,并将其实时发送到索引器;这正是 Cribl 的强项。但是,转发器对它接收到的数据是不可知的,这意味着发送到索引器的所有数据都会计入用户的数据容差,无论其相关性或价值如何。
索引器摄取数据并建立索引,以便进行高效查询。然而,这一过程会带来巨大的成本和性能挑战,尤其是在云环境中。Cribl 等工具提供了一种解决方案,在数据到达索引器之前对其进行预处理,删除不必要的字段并降低存储成本。Cribl 将事件数据发送到冷存储的功能可为公司节省高达 97% 的存储成本,大大减轻了管理大量日志数据的经济负担。此外,Snowflake 和 Databricks 还为数据存储和查询提供了令人信服的替代方案。其云原生架构可自动扩展,查询速度比 Splunk 等传统 SIEM 系统快 200 倍,是需要快速分析大型数据集的企业的有力工具。这些优势使企业能够简化数据管理流程,降低成本,提高安全操作的速度和准确性。因此,这种围绕 SIEM 的数据工程流正在被拆分。
当前的挑战:
在安全数据工程方面,买方主要关注两个问题。其中一个主要挑战是,存储当今分布式系统产生的大量且不断增长的安全数据所带来的成本膨胀,这些数据包括非结构化日志、事件和遥测数据以及复杂的追踪数据,通常达到 PB 级规模,导致存储费用飙升且难以预测。由于缺乏统一的数据模型,企业不得不依赖专门的存储解决方案和工具,从而加剧了这些成本。这种情况导致系统分散和数据孤岛,使数据管理进一步复杂化,并推高了运营成本。在管理数据维度以及如何影响不断增长的安全数据量方面,Cribl 和 Hydrolix 采用了不同的方法——Cribl 专注于清除低价值、高频率的应用日志,智能过滤掉不太重要的数据,以优化存储并降低成本。相比之下,Hydrolix 可处理高维事务日志,确保所有数据不丢失,这对长期分析和合规性至关重要。
第二个挑战是很难从大量的数据噪音中分辨出关键的安全信号。尽管数据搜索能力不断进步,但相关信息的检索和排序仍然是可观测性的主要挑战。在海量数据中有效识别查找内容和查找位置的能力仍然是一个瓶颈。根据 Gartner 的研究,关键事件的平均解决时间(MTTR)仍然为 4-5 小时。传统系统往往不能有效地进行优先排序和过滤,因此很难发现重大威胁。核心问题不仅仅是收集或存储这些数据,而是要快速理解这些数据,以提供真正的业务价值——这个问题通常被视为大数据问题,而不是信息分析问题。
此外,现代可观测性工具还面临着各种技术挑战,包括处理异构数据格式和应对缺乏统一数据模型的问题。Iceberg和开放表格式使存储问题变得不那么严重。有了这些工具,就不需要在不同系统中重复存储数据,因为查询引擎可以从多个来源读取数据。例如,由于开放表格式的兴起,Cribl 的搜索产品可以跨 Splunk、冷存储、时序数据库和其他安全工具进行搜索。对于像 Lakeway 这样的公司来说,可能有机会支持可观测数据的这些搜索用例。此外,不同工具的查询语言多种多样,如 Elasticsearch 的 Lucene、Prometheus 的 PromQL 以及用于追踪的各种类似 SQL 的语言,这又增加了一层复杂性。这种多样性使团队难以有效地诊断和解决问题,因为他们必须浏览多个系统,才能全面了解系统的健康状况。
这些挑战为 Cribl、Tarsal、Databahn 和 Observo 等公司带来了巨大的机遇,它们正在开发用于预处理、过滤和丰富数据的解决方案,从而更轻松地剪除无用数据并识别最关键的安全信号——这直击 Splunk 转发器技术的核心。LLM在这一领域特别有前景,因为它们提供了一种统一的数据分析方法。LLM 非常适合解析和解释日志中的非结构化、文本量大的数据,而且它们还可以纳入系统文档、代码库和历史事件报告中的上下文。这种快速适应新数据模式的能力使 LLM 成为解决动态系统中持续存在的概念漂移问题的强大工具。此外,除了语义理解层之外,LLMs 还可用作策略/成本管理层。根据不同的需求,企业在应对这些挑战时将拥有更大的灵活性。
过去人们觉得使用AI来完成这些任务的成本过高,但最近开源模型的进步正在改变这一现状。使用基于 Llama 的日志和事件转换模型的新方法托管在一个私有环境中,通过识别模式、对数据进行分类和对关键事件进行优先排序,提供了一种可扩展且具有成本效益的方法来增强日志。
这种方法不仅增强了威胁检测能力,还优化了安全环境中的资源分配,有助于解决目前困扰可观测性市场的许多分散问题。不过,我们必须认识到,虽然 LLM 功能强大,但它们也有自己的一系列挑战,尤其是在实时处理方面,目前的延迟和成本限制可能会阻碍实时处理。一个未来很有前景的发展方向是将 LLM 与图形数据库相结合,从而实现更好的自动化根本原因分析,并有可能显著缩短平均解决时间 (MTTR)。
新兴技术:开放可观测性的崛起
1.OpenTelemetry:随着可观测性数据的开放程度越来越高,OpenTelemetry 等框架正在通过规范不同平台间遥测数据的收集和传输,改变着整个行业。OpenTelemetry 是一个开源的可观测性框架,可实现不同可观测性工具的无缝集成,从而以一致的格式收集追踪、度量和日志等数据。这种开放性大大降低了供应商锁定的风险,并增加了目的地的分散性,因为企业现在可以在后端系统之间轻松切换,而无需更换现有的数据收集基础设施。
2.开放表格式:传统上,可观测性供应商往往通过专有数据格式和收集代理将客户锁定在自己的生态系统中,使客户很难更换供应商,而且成本高昂。然而,有了 OpenTelemetry,企业就能灵活地选择最适合其特定需求的工具,从而促进更具竞争力和互通的市场。Cribl Search 的采用进一步加强了这一转变,它通过提供跨 S3 和其他安全数据湖等各种目的地的搜索功能对 OpenTelemetry 进行了补充,从而使在一个更加开放和供应商无关的环境中管理和分析可观测性数据变得更加容易。了解更多信息可阅读文章 "What is Apache Iceberg"。
3.开源模型:基于领域的小型模型在事件预处理和路由选择方面的应用尚不多见,但如上所述,我们对此充满期待。
创业机会:
1) AI优先的安全数据工程或 "安全 ETL"
描述:专注于高效数据预处理、过滤和丰富的安全数据工程平台。Cribl 允许企业在多个平台(如 Splunk、Datadog 和 Elastic)上路由和处理可观测性数据,从而减少了对供应商的锁定,使企业能够避免依赖单一供应商,并选择最适合其特定需求的工具。这是一个巨大的市场,其增长速度超过了 Fivetran 等传统 ETL,Cribl 的 ARR 已超过 2 亿美元,并且还在以 90% 的速度增长。特别是 Splunk 的转发器正在被拆分。
Cribl 最初是为 Splunk 节省成本(Splunk 75% 的数据同步到 Cribl)。Cribl 承诺将 Splunk 的账单减少 30-40%。
Cribl 不将所有数据路由到 Splunk,而是将部分数据路由到冷存储、热存储或其他系统(如时序数据库)。与 Splunk 相比,冷存储可节省 97%。
开放表格式的出现使 Cribl 得以涉足搜索业务,因为 Cribl 搜索提供跨不同目的地的查询。由于现在可以跨各种目的地进行查询,因此就不需要在 Splunk 中存储所有内容了。
它们的解决方案旨在降低存储成本,提高为分析而保留的安全数据的相关性。出于成本效益的考虑,这些工具通常私有化部署(即 Cribl 的⅚)。
2) 基于AI的追踪和根本原因分析,以及事件相关性
可观测性工具的发展超越了传统的度指标、日志和追踪,它整合了代码级洞察力,解决了根本原因分析中的重大差距。这种转变通过将性能数据与底层代码联系起来,使人们能够更全面地了解系统行为。
包括 LLM在内的新人工智能模型通过分析上下文中的代码、指标和日志来增强可观测性,从而减少对领域专业知识的依赖并提高故障排除效率。
描述:LLM通过有效分析和关联大量追踪数据、识别模式和异常并提供更深入的上下文洞察,有可能彻底改变追踪方式。这一功能可帮助团队更准确、更快速地找出问题的根本原因。此外,LLM 还可通过启用自然语言界面来提高可访问性,使工程师能够使用自然语言来查询系统信息。例如询问"向我显示支付服务中与过去一小时 CPU 使用率高相关的所有 HTTP 500 错误 "这样的问题,可以立即得到准确的结果,从而简化调试过程并减少对查询语言专业知识的依赖。
新的追踪技术可以自动识别和解决复杂分布式系统中的问题。BigPanda、Moogsoft 和 Epsagon(被思科斥资 5 亿美元收购)等公司代表了最新一代的事件相关性和高级追踪解决方案,在它们取得的进步基础上,新的初创公司正在探索进一步加强大规模事件驱动架构的管理和故障排除的机会。
3) 经济实惠 和/或 开源遥测技术
OpenTelemetry 的影响不仅限于减少供应商锁定。随着企业同时使用 Datadog、Prometheus 和 Grafana 等多种工具,可观测性领域的碎片化现象日益严重,而这些工具都是通过 OpenTelemetry 等开放标准集成的。
描述:传统的可观测性和安全日志工具成本高昂,这为 Signoz 等开源解决方案创造了巨大商机。通过提供经济实惠的开源可观测性替代方案,Signoz 可以复制 Grafana 依附于 Prometheus 所取得的成功(Grafana 最近以 2.7 亿美元的总收入融资 60 亿美元)。值得注意的是,在 Grafana 发布仅五个月后举行的第一届 Prometheus 大会上,30% 的与会者已经在使用 Grafana。Signoz 正在加入 OpenTelemetry,而 OpenTelemetry 是仅次于 Kubernetes 的 CNCF 最受欢迎的开源软件仓库。
4) 下一代编排:
公司:Maestro 尚未有公司
描述:Netflix 的 Maestro ( Github) 正在开发下一代编排工具,以简化复杂的分布式应用程序的管理,实现更高效、更具弹性的运营。Airbnb 的 Bharat 等专家提到,Airbnb 正在从 Airflow(Airbnb 开发了 Airflow,并由此诞生了 Astronomer)转向 Maestro,市场需要新的编排解决方案。
5) 下一代存储格式
描述:Facebook 的 Nimble ( Github) 是一种新的列式数据存储技术(可替代 Iceberg、Hudi 和 Delta Lake)。他们声称可以大大节省成本,尤其是在事件数据的机器学习和分析工作负载方面。由于 Iceberg / Tabular 和 Delta Lake 都归 Databricks 所有,现在市场上可能存在独立产品的空白,单凭这一点可能还不足以建立一个平台公司,但这是解决成本问题的差异化属性。差异化存储格式可以成为进一步创新的重要差异化因素,例如 Hydrolix 及其成本效率。这可能是一个差异化的切入点,克服了现有公司的数据引力。
原文链接:
https://www.datagravity.dev/p/security-data-engineering-and-etl
声明:本文来自安全喵喵站,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。