迈向“人工智能+”的新范式：应用赋能与风险应对

近年来，以大型语言模型（LLM）为代表的人工智能技术取得了突破性进展，驱动了全球范围内的新一轮应用创新高潮。上周，国家层面出台“人工智能+”行动政策，更是为这场技术革命注入了强劲的政策动能。各行各业正积极寻找落地场景，验证人工智能的有效性。网络安全领域，作为兼具高技术性与高对抗性的前沿阵地，自然成为“人工智能+”的核心战场。然而，我们必须以辩证的视角看待这一趋势：一方面，我们需积极探索人工智能技术对网络安全的赋能（AI for Security）；另一方面，也必须严肃审视人工智能自身引入的安全风险（Security for AI）。本文将基于近两年的实践与思考，从这两个维度展开论述。

第一方面：人工智能技术助力网络安全（AI for Security）

人工智能并非万能钥匙，其有效性高度依赖于场景、数据与人的协同。在网络安全领域盲目追求“AI神话”，必将导致投入浪费和效果失望。

观点一：正确认知AI各种算法的能与不能，精准匹配场景与算法

近年来大模型的出现并非取代了所有传统AI算法，而是扩展了AI的能力边界。须建立清晰的认知地图：

大模型（LLM）的能与不能：LLM其核心能力在于对自然语言、代码等非结构化数据的深度理解、生成和逻辑推理。这使得它在安全领域比较适合安全运营中心（SOC）的告警研判与自动化报告生成、恶意软件的行为描述与分析、合规性检查与策略文档管理、网络钓鱼邮件的语义识别以及面向内部员工的智能安全问答助手等场景。然而，它并不擅长需要极高精确度和确定性的实时、低层级检测（如基于字节序列的恶意软件检测）。

网络安全很多场景已经采用了AI多元算法的集合，已知的传统/专用AI算法的适用场景包括：

采用无监督学习（如聚类、异常检测）作为用户实体行为分析（UEBA）和网络流量异常检测（NTA）的基石，用于发现未知威胁和内部人员异常。

采用监督学习（如分类、回归）算法，基于历史标签数据，广泛应用于垃圾邮件过滤（贝叶斯算法仍是经典）、恶意软件家族分类（图像分类模型可用于灰度图像化后的样本分类）、威胁情报关联分析（图神经网络GNN）等。

基于强化学习在动态防御（如移动目标防御MTD）和自动化渗透测试中展现潜力，让AI智能体在与环境的交互中学习最优攻防策略。

因此，成功的“AI+安全”方案，可能是“LLM（处理非结构化、认知任务）+ 传统AI（处理结构化、精确任务）+ 规则引擎（处理确定性逻辑）”的融合体系，而非LLM的一枝独秀。

观点二：垂域模型落地，数据质量是生死线

引入第三方安全垂域大模型或AI解决方案时，企业常陷入“模型一流，效果三流”的困境。其核心瓶颈往往在于数据，且远不止于“数据质量”四个字这么简单：

1. 数据一致性（Schema Alignment）：垂域模型在训练时，其输入数据具有特定的字段名称、类型、格式和语义内涵（如`src_ip`代表源IP）。若企业日志的字段命名不规范（如有的叫`source_ip`，有的叫`ip_source`）、类型错误（IP存成了字符串而非整型）、或语义缺失（日志未记录关键进程信息），模型就无法正确理解和处理。这要求企业在数据接入阶段就必须进行严格的数据治理与标准化，通常需要部署统一的数据总线或标准化平台（如基于ELK/Spark流处理管道），将异构数据映射到模型期望的范式上。

2. 数据广度与上下文：高级威胁的检测往往需要跨数据源关联。一个EDR的进程行为日志，需要匹配网络的流量日志和资产的漏洞信息，才能做出准确研判。如果企业提供的数据是孤立的、碎片化的，缺乏必要的上下文，再先进的模型也会“巧妇难为无米之炊”。

3. 数据偏见与代表性：模型在A公司数据上训练，在B公司部署时，可能因业务系统、网络架构、用户行为的差异而导致效果下降。例如，一个在金融行业训练出的异常交易模型，在制造业的IT环境中可能将正常的工控系统通讯误报为异常。这需要通过迁移学习和领域自适应技术，用本地少量数据进行微调（Fine-tuning），使模型适应本地环境。

观点三：亟需建立人工智能应用效能测试指标体系

“AI替代了50%的人工”这类模糊的宣称已无法满足决策需求。须建立科学、量化、可复现的效能测试体系。这个体系应至少包含三个维度：

1. 有效性指标（Effectiveness）：

检测能力：召回率（Recall）、精确率（Precision）、F1-Score、AUC-ROC曲线。关键是要在真实且新鲜的对抗性样本集上进行测试，而非过时的公开数据集。

研判能力：平均研判时间、自动化处置率、误报率（False Positive Rate）、漏报率（False Negative Rate）。

响应能力：从威胁发生到被自动化剧本（Playbook）遏制平均时间（MTTD/MTTR）。

2. 效率指标（Efficiency）：

资源消耗：模型推理的CPU/GPU占用率、内存消耗、延迟（Latency）。这对于需要实时响应的场景至关重要。

运营效率：单日可处理告警数量、平均每个分析师管理的资产规模。

3. 业务价值指标（Business Value）：

成本规避：通过提前阻止攻击预估避免的经济损失。

合规性提升：满足等保、GDPR等法规要求的自动化程度。

人员赋能：分析师满意度提升、技能提升程度（从繁琐的告警筛选解放出来，专注于威胁狩猎等高价值工作）。

国际上，MITRE的ATLAS（Adversarial Threat Landscape for Artificial Intelligence Systems）框架提供了评估AI安全系统对抗攻击能力的知识库和方法论，可作为构建测试体系的重要参考。

观点四：大模型应用是一个持续优化的过程，而非一蹴而就的项目

期望引入一个大模型就一劳永逸地解决所有安全问题是最大的误区。其成功落地是一个需要持续投入的闭环过程：

1. 场景化试点（Pilot）：选择一个高价值、边界清晰的场景（如 phishing邮件分析）作为切入点，小范围验证可行性。

2. 数据管道建设与模型微调：构建通往模型的数据管道，并基于企业内部数据对基础模型进行微调，使其更“懂”业务。

3. 人机协同（Human-in-the-loop）：初期必然存在误判，需要安全专家对模型输出进行复核和纠正。这些反馈数据是模型迭代优化的黄金燃料。

4. 持续评估与迭代（Continuous Evaluation & Tuning）：建立上述的效能指标体系，持续监控模型表现。随着对抗环境的变化和业务的发展，定期用新数据重新训练或微调模型，防止模型性能衰减（Model Decay）。

5. 规模化与集成（Scale & Integration）：在试点成功后将能力集成到现有的SOC平台、SOAR等 workflows 中，实现规模化运营。

唯有经过这个持续的“数据-模型-反馈-优化”飞轮，AI才能真正融入安全体系，发挥价值。

第二方面：人工智能/大语言模型自身的安全（Security for AI）

当我们热情拥抱AI的同时，必须清醒地认识到，AI系统本身引入了新的攻击面（Attack Surface）。我们必须从系统性的视角，分层审视并加固其安全性。

基础/系统层（Infrastructure Layer）：这是AI系统运行的物理和软件基础。其风险包括包括很多网络安全领域的传统风险，可以采用网络安全防护思维：

供应链攻击：训练框架（如TensorFlow, PyTorch）、第三方库、预训练模型可能被植入后门。

计算资源滥用：攻击者可能劫持昂贵的GPU算力进行加密货币挖矿或攻击他人。

横向移动：一旦攻破一台承载重要模型的服务器，攻击者可将其作为跳板，向内网渗透。

防护策略包括：严格软件供应链安全审查（SBOM）、最小权限原则、网络微隔离、对训练和推理环境进行严格的安全加固与漏洞管理。

数据层（Data Layer）：是AI的血液，也是核心攻击目标。涉及到数据安全领域的风险，包括：

训练数据投毒（Data Poisoning）：攻击者在训练数据中隐秘地注入恶意样本，导致模型学习到错误的模式，从而在特定触发条件下做出错误判断。例如，在人脸识别数据中混入特定图案，导致模型无法识别特定人员。

隐私泄露：模型可能会“记住”并泄露训练数据中的敏感信息（如个人身份证号、医疗记录）。通过**成员推理攻击（Membership Inference Attack），攻击者可判断某个样本是否存在于训练集中。

防护策略包括：对训练数据进行严格的清洗、验证和来源审计；采用差分隐私（Differential Privacy）技术在训练时添加噪声，防止记忆；采用联邦学习（Federated Learning）在不交换原始数据的情况下进行联合建模。

模型算法层（Model Algorithm Layer）：对抗性攻击的核心战场。是人工智能算法领域方面的新兴风险，对网络安全人员挑战比较大，风险主要包括：

对抗性样本（Adversarial Examples）：对输入添加人眼难以察觉的微小扰动，就能使模型产生高置信度的错误输出。例如，在停车标志上贴几个小贴纸，就能让自动驾驶系统将其误判为限速标志。

模型窃取（Model Stealing）：通过不断查询模型API并分析其输入输出，攻击者可以低成本地复现一个功能近似的“山寨模型”，窃取知识产权。

模型逆向（Model Inversion）：针对人脸识别、语音识别等模型，通过分析模型输出，反向推导出训练数据的敏感特征。

防护策略包括：采用对抗性训练（Adversarial Training）（将对抗样本加入训练集）；对模型输出进行模糊处理（如仅返回分类标签而非置信度）；监控异常查询模式以防御模型窃取。

应用/输出层（Application/Output Layer）：是用户与AI系统交互的界面，风险最为直观。在这样领域围绕内容安全产生更多风险，也产生了新的安全技术生态，主要风险包括：

提示注入（Prompt Injection）：攻击者通过精心构造的输入（提示），诱导模型违背既定指令，执行越权操作、泄露系统提示或生成有害内容。这是LLM面临的最普遍威胁之一。

越狱（Jailbreaking）：绕过模型内置的安全护栏（Safety Guardrails），使其生成违法、暴力、偏见或歧视性内容。

生成式滥用（Generative Misuse）：利用AI生成高质量的钓鱼邮件、虚假新闻、恶意代码、深度伪造（Deepfake）音视频，进行社会工程学攻击。

过度依赖（Over-reliance）：由于模型的“幻觉”（Hallucination）现象，它可能生成看似合理实则错误的安全建议，若分析师盲目采纳，可能导致安全决策失误。

防护策略包括：在输入输出端部署内容过滤与安全护栏；建立多层级的人工审核机制（尤其对于关键决策）；对用户进行安全教育，明确AI能力的边界；持续监控和审计模型的生成内容。

OWASP（开放 Web 应用程序安全项目）发布的LLM AI 安全与治理清单和十大大型语言模型应用程序风险（TOP 10 for LLM Applications），为系统性地应对应用层风险提供了极具价值的实践指南。

结论

“人工智能+”的时代浪潮已至，它为网络安全带来了前所未有的赋能机遇，也带来了复杂严峻的全新挑战。我们既不能因噎废食，畏惧不用，也不能盲目乐观，仓促上马。

在“AI for Security” 方面，保持技术理性，精准匹配场景，夯实数据根基，建立度量体系，秉持长期主义，让AI成为安全专家手中强大的“增强智能”（Augmented Intelligence）工具。

在 “Security for AI” 方面，则需未雨绸缪，采用系统性的安全架构思维，从基础层、数据层、模型层到应用层，构建纵深防御体系，确保这项颠覆性技术能够在安全、可靠、可信的前提下健康发展。

唯有同时驾驭好这两个方面，我们才能真正乘风破浪，驶向智能时代安全、稳固的未来。

声明：本文来自数字安全洞察，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

迈向“人工智能+”的新范式：应用赋能与风险应对

威胁情报平台到底是独占还是重合

你所信仰的安全或许只是一场精心包装的幻觉

APT域名与基础设施的生命周期