近日,由美国网络安全与基础设施安全局(CISA)与澳大利亚信号局下属的澳大利亚网络安全中心(ASD"s ACSC)联合编写,并协同美国国家安全局人工智能安全中心(NSA AISC)、联邦调查局(FBI)、加拿大网络安全中心(Cyber Centre)、 德国联邦信息安全办公室(BSI)、荷兰国家网络安全中心(NCSC-NL)、新西兰国家网络安全中心(NCSC-NZ)及英国国家网络安全中心(NCSC-UK)共同制定,下称“起草机构”。指南为关键基础设施所有者和运营者提供将人工智能融入运营技术环境的实用信息。

指南概述了关键基础设施所有者和运营商可遵循的四项核心原则,以在降低风险的同时充分利用人工智能在运营技术系统中的优势:
1.理解人工智能。认识到人工智能融入运营技术环境的独特风险与潜在影响,重视对人员进行风险教育,并建立安全的人工智能开发生命周期。
2.考量人工智能在运营技术领域的应用。评估人工智能在运营技术环境中的具体业务场景,管理运营技术数据安全风险,明确供应商角色,应对人工智能集成的短期与长期挑战。
3.建立人工智能治理与保障框架。实施强有力的治理机制,将人工智能融入现有安全框架,持续测试评估人工智能模型,并考虑合规要求。
4.将安全防护实践嵌入人工智能及人工智能赋能的OT系统。建立监督机制确保人工智能赋能的OT系统安全运行与网络安全,保持透明度,并将人工智能纳入事件响应计划。
起草机构敦促关键基础设施所有者和运营商审阅本指南并落实相关原则,以安全可靠地将人工智能集成至运营技术系统。
重要术语
本指南的范围专门涵盖关键基础设施所有者和运营商如何协助确保运营技术环境中人工智能系统的安全与保障。为此,起草机构采用以下特定术语定义,以避免与其他语境中的定义混淆:
人工智能(AI)是指利用机器和人类输入来进行预测、建议或决策,从而影响真实或虚拟环境的系统。
安全特指运营技术环境中的物理安全(正式定义为功能安全)。运营技术系统控制着可能危害人员或财产的物理系统,例如生物/化学制剂输送系统、水坝或污水处理控制系统、车辆交通流自动化系统等。在本指南中,单独出现的“安全”一词始终指代功能安全。
安全(在本指南中与“信息安全”和“网络安全”互换使用)指确保信息及信息系统的安全性属性,包括保密性、完整性和可用性。
范围
机器学习(ML)、统计建模和算法计算均属于人工智能技术范畴,这些技术已在关键基础设施工程流程中应用多年。尽管机器学习与传统统计建模均基于数据进行结果预测或决策制定,但二者在方法论、假设前提、应用场景以及与运营技术(OT)系统安全集成方面的考量存在差异。本指南的范围聚焦于基于机器学习和大型语言模型(LLM)的人工智能及智能代理,因为将OT系统与这类人工智能系统集成涉及更复杂的安全与防护考量。但本指南同样适用于采用传统统计建模及其他基于逻辑的自动化增强的系统。以下子章节将定义这些不同的人工智能技术。
人工智能技术类型
传统统计建模运用数学公式精确描述变量间的关系。其假设数据遵循特定分布规律,且关系呈线性或可由线性模型近似描述。统计建模通过回归分析、假设检验和置信区间等技术直接估计模型参数并进行预测,常用于预测分析、优化计算及辅助操作员决策等任务。非机器学习型人工智能系统通过算法实现决策与控制流程的自动化;在运营技术系统中,此类系统包含梯形图自动化程序及一类安全仪表系统。
机器学习系统通过算法从数据中学习,无需显式编程即可进行预测或决策。该模型能处理变量间的复杂关系与非线性交互。在基于数据构建表征模型并进行预测时,机器学习模型采用多种技术手段,包括监督学习、无监督学习和强化学习。机器学习广泛应用于计算机视觉、自然语言处理和机器人学等领域,用于图像分类、语音识别和自动驾驶等任务。
大型语言模型是先进的机器学习模型,旨在理解自然语言提示并生成人类可理解的响应。LLM通过分析语言模式及多模态数据集,对用户提示生成复杂响应。LLM工程师通常在生成输出时引入随机性,避免模型对相同输入产生重复响应。LLM可驱动生成式人工智能应用,通过增强决策能力、自动化常规任务及优化维护计划,为关键基础设施实体提供支持,从而提升运营效率与可靠性。
人工智能代理是一种软件,能够利用人工智能和机器学习模型处理数据、执行决策并启动自主行动。此类代理型人工智能系统种类繁多,包括运用大型语言模型驱动生成式人工智能应用或代理的系统,以及融合多种机器学习技术、分析视角、决策方法论和自主行动能力的系统。与LLM类似,它们能增强决策能力、自动化常规任务并优化维护计划,从而提升关键基础设施运营效率。实施错误检查机制可避免问题发生,确保输出结果符合预期范围,进而提升AI代理性能。
基于普渡模型的AI应用
普渡模型仍是理解运营技术(OT)与信息技术(IT)设备及网络层级关系的广泛认可框架。表1展示了基于该模型在关键基础设施中已建立及潜在的人工智能应用示例。机器学习技术(如预测模型)通常应用于运营层(0-3层),而大型语言模型则主要应用于业务层(4-5层),其数据可能来源于运营技术网络的导出数据。
表1. 根据普渡模型划分的AI应用领域


AI在运营技术中的安全集成原则
原则1:理解人工智能
1.1 理解人工智能的独特风险及其对运营技术的潜在影响
下文将探讨人工智能集成风险及其对运营技术运行的潜在影响。表2概述了关键基础设施所有者和运营商应考虑的已知AI风险(注:此列表不完整;关键基础设施所有者和运营商应调查其组织特有的风险)。本指南后续章节将讨论这些风险的缓解措施;请参阅表2中“缓解措施”列的交叉引用。
表2. OT环境中的AI风险与影响



1.2 理解安全人工智能系统开发生命周期
为应对将人工智能集成到运营技术环境中的独特挑战,关键基础设施所有者和运营商应验证人工智能系统是否经过安全设计,并理解其在人工智能系统生命周期中的角色与职责。类似于云系统采用的混合所有权模式,所有者和运营商必须与人工智能系统制造商、运营技术供应商以及任何系统集成商或托管服务提供商角色明确界定并沟通这些职责分工。
英国国家网络安全中心(NCSC-UK)与美国网络安全与基础设施安全局(CISA)联合发布的《安全人工智能系统开发指南》强调了AI系统开发生命周期的以下关键阶段:
安全设计。从系统初始阶段就将安全考量纳入设计,包括采用稳健编码、协议及数据保护措施。
安全采购或开发。选择遵循安全实践的供应商,并使用安全方法论和工具开发AI系统。
安全部署。采用维护系统安全态势的方法部署人工智能系统,包括实施适当的网络分段和访问控制,并验证系统运行符合预期。
安全运维。确保人工智能系统在其整个生命周期内持续安全运行,包括实施定期更新和补丁,以及监控潜在漏洞。
关键基础设施所有者和运营商还应仔细评估不同人工智能系统采购方式之间的权衡:
采购人工智能系统。从供应商处选择符合特定安全要求且获得运营技术供应商认可的预开发人工智能系统。
自主开发AI系统。内部构建AI系统,实现对设计与实施的全权掌控。
定制现有AI系统。与供应商协作,根据具体OT系统需求调整其现有AI系统。
关键基础设施所有者和运营商应尽可能要求采用“安全设计”的人工智能系统,确保其不会对OT运行和安全造成负面影响。建议参考美国网络安全与基础设施安全局(CISA)的“安全设计”网页及相关资源,并结合《按需安全:运营技术所有者和运营商选择数字产品时的优先考量》联合指南,将这些原则融入人工智能与OT系统的设计中。
1.3 对人员进行人工智能教育
将人工智能整合到运营技术环境中可能导致人员过度依赖自动化,从而降低人工监督和态势感知能力。这可能带来严重后果,包括:
依赖风险与技能退化。过度依赖人工智能可能导致运营技术人员丧失在人工智能故障或系统中断期间管理系统所需的手动技能。技能缺口。
运营技术人员可能误解人工智能输出结果,导致采取错误行动;当人工智能系统出现故障时,运营技术人员也可能缺乏管理或故障排除的专业知识。
关键基础设施所有者和运营商可通过以下方式减轻这些风险。注重技能培养和跨学科协作,例如:
对运营技术团队进行人工智能基础知识和威胁建模培训,使团队能够有效解读和验证人工智能输出结果,并在人工智能系统运行期间保持操作能力——例如,培训团队使用替代传感器(如人类感官、振动或温度传感器、电压读数)来验证人工智能输出结果,并了解当人工智能输出结果无效时应采取的行动。
为所有操作(含人工智能相关操作)、干预措施及突发事件制定清晰的标准操作规程(SOP),以帮助利益相关方明确其在管理人工智能赋能的运营技术系统中的职责。
通过要求操作员获取包含清晰透明决策过程文档的人工智能输出结果,运用可解释人工智能技术;此举有助于人类更好地理解并验证输出结果。
原则2:考虑在运营技术领域使用人工智能
2.1 评估人工智能在运营技术领域的商业价值
在将人工智能系统集成到运营技术环境前,关键基础设施所有者和运营者应评估相较于其他技术,人工智能技术是否最符合其特定需求和要求。关键基础设施所有者和运营商在采用更复杂的新型人工智能解决方案前,还应评估现有技术能力是否满足需求。尽管人工智能具备独特优势,但作为一项持续演进的技术,其风险需进行持续评估。
该评估应综合考量多种因素——包括安全性、性能、复杂度、成本以及对具体应用场景下OT环境安全的影响——并根据应用功能需求权衡人工智能技术的利弊。关键基础设施所有者和运营商应了解组织当前在OT环境中维护人工智能系统的能力,以及扩展环境风险面可能带来的影响,例如需要额外的硬件和软件来通过模型处理数据,或需要额外的安全基础设施来保护扩展的攻击面。
若评估表明人工智能系统是最佳解决方案,关键基础设施所有者和运营者应遵循上述安全的人工智能系统开发生命周期,并参考人工智能风险管理框架(如美国国家标准与技术研究院(NIST)的人工智能风险管理框架),以确保系统安全可靠地运行。
工业技术领域人工智能业务用例评估示例
下文展示某关键基础设施机构针对工业发电机预测性维护应用人工智能可行性的模拟评估。该评估包含性能阈值及组织安全防护要求,技术方案必须满足这些要求,关键基础设施所有者和运营商方可推荐在工业技术环境中采用人工智能。
用例:运用人工智能系统对工业发电机实施预测性维护。
问题陈述:工业发电机故障导致停机时间长、维护成本高。
目标:部署人工智能驱动的预测性维护解决方案,提前30天检测发电机潜在故障。
风险:若人工智能未能正确执行预测性维护,可能导致设备过早更换。
关键利益相关方
负责发电机维护排程的运营团队
执行发电机维修与更换的维护人员
受发电机停机时间及维护成本影响的设备所有者
要求
可访问发电机性能的历史数据,包括传感器读数和维护记录。
能够近乎实时地处理大型OT数据集。
可靠的故障预测检测能力
相应的安全与保障要求
聚合数据在传输和存储过程中均受保护,所有访问或变更操作均被记录。
数据聚合操作不超出80%的网络带宽阈值。
误报率极低且附带上下文信息,确保可操作性并避免操作员疲劳。
成功指标
停机时间减少25%。
维护成本降低15%。
设备综合效率提升10%。
2.2 管理人工智能系统中的运营技术数据安全风险
数据相关挑战
在将人工智能集成到运营技术环境时,关键基础设施所有者和运营商应与人工智能模型开发者协作,共同应对以下数据相关挑战:
数据保障。了解用于训练人工智能模型的运营技术数据存储位置,确保其处于组织控制范围内。安全管理运营技术数据访问权限,包括可查看、访问或修改数据的对象。
了解AI供应商如何访问和使用组织OT数据,尤其涉及远程、云端或境外访问时。
数据主权。需知晓境外企业受外国政府管控及法律约束,可能需遵从与贵方商业利益相悖的指令。
敏感信息暴露。通过避免向AI模型共享敏感数据来降低风险,尤其当AI模型托管于外部方控制的环境(如公共云基础设施)时。
数据隐私与安全。保护运营技术数据集中的专有信息和个人信息,包括建立防护机制以应对访问滥用、故意或无意的数据污染,以及对合成生成数据的依赖。
数据孤岛。解决因运营技术/信息技术网络隔离、专有协议、格式差异、运营技术产品多样性及供应商众多等因素导致的AI系统在运营技术环境中集成复杂性。
数据质量与可用性。运用专业领域知识筛选高质量、全面的数据集以保障AI效能。工业场景中此举充满挑战:潜在困难包括环境中存在专有或过时系统及定制化解决方案,以及难以捕捉安全相关的边缘案例。需借助OT操作员的专业知识获取此类专属信息。此外,操作员应协同AI模型开发者,确保数据完整性计划覆盖AI系统。
优先保护运营技术数据
优先保护关键类型的运营技术数据,包括以下内容:
工程配置数据。包括网络图、资产清单、操作流程文档、安全相关信息、逻辑图和原理图。这些数据点具有持久价值,对网络攻击者极具价值。
临时性OT数据。工业测量技术(尤其是过程测量技术)产生的数据(如电压/温度、压力值、质量/体积流量等)可揭示组织活动或系统行为特征。若此类数据用于训练或更新人工智能模型,则可能在模型中长期存留(以统计形式)。因此,保障这些数据点的安全对保护知识产权(IP)及活动模式至关重要。
2.3 理解 OT 供应商在 AI 集成中的角色
OT供应商在推动AI融入OT环境方面发挥着关键作用。部分OT设备现已内置AI技术,其运行可能需要互联网连接。
OT供应商的新兴趋势包括:
面向操作员的人工智能。OT供应商正将AI能力直接集成到设备中,例如用于预测电网频率动态的模型。
智能设备。随着技术进步,将出现越来越复杂的“智能设备”,这些设备具备工程控制和参数调整的人工智能能力。
关键基础设施所有者和运营商应要求运营技术供应商在人工智能技术嵌入产品时提供透明度和安全保障,具体包括:
合同协议。协商签订合同协议,确保运营技术供应商明确说明人工智能特性与功能细节。
软件供应链与软件物料清单(SBOM)。要求OT供应商说明人工智能在产品中的嵌入方式(包括要求提供SBOM),并明确产品所用人工智能模型的供应链(例如模型托管位置)。
供应商通知机制。除常规产品生命周期漏洞披露政策外,AI供应商应主动披露发现AI存在提供不当建议或采取错误行动的迹象。
明确的数据使用政策审查与执行。运营商可能不希望供应商使用运营数据训练AI,因该数据可能包含知识产权或敏感信息。运营商可通过数据使用政策控制信息,该政策需明确规定数据驻留位置、通信路径、加密方式及存储规范。
增强连接性。询问供应商是否支持本地部署或脱离互联网/供应商云的持续访问环境运行。
禁用AI功能。明确规定特定AI功能的启用/禁用条件,并将控制权交由运营商掌握。
2.4 评估人工智能运营技术系统集成面临的挑战
在将人工智能集成到运营技术环境时,关键基础设施所有者和运营商应仔细评估现有基础设施,以确保兼容性和安全性。
人工智能与运营技术系统集成面临的挑战
组织在将人工智能集成到运营技术系统时可能面临的挑战包括:
系统复杂性与漏洞增加。AI集成会增加OT系统的复杂性,可能形成新的攻击面和漏洞供恶意行为者利用,当AI引入新型远程可访问的互联网暴露攻击路径时,这点尤为关键。
云安全风险。将AI集成至云端监督控制与数据采集(SCADA)环境可能引入额外网络安全风险,或导致数据传输延迟。
前向兼容性与后向兼容性。为实现人工智能的安全集成,运营技术系统设计可能需要演进升级。许多运营技术环境依赖于缺乏标准化数据格式和计算能力的旧设备,这使得人工智能的数据集成与分析变得复杂。
延迟与实时性约束。人工智能系统可能无法满足运营技术环境的严格时序要求;这些要求因行业而异,且当人工智能系统直接参与控制流程时尤为关键。
人工智能供应商透明度。供应商透明度不足可能阻碍对建立外部连接或修改标准工程工作流功能的洞察。
为缓解这些挑战,关键基础设施所有者和运营商应采取以下措施:
将人工智能系统整合到整体安全和网络安全框架中(参见3.2节《将人工智能整合到现有安全和网络安全框架》)。
在全面安全战略中加入人工智能安全考量,该战略还应包含传统网络安全要素,如数据加密、访问控制和入侵检测系统。
o 关键基础设施所有者和运营商应在云服务合同中明确定义并验证安全条款,明确规定AI安全责任、合规标准及支持条款,包括数据保护、访问控制、事件响应和审计能力。
o 云服务提供商除传统云安全责任共担模式外,还应提供详细文档,阐明针对人工智能功能的特定安全义务。
考量现有运营技术基础设施,评估并制定人工智能系统集成方案。
o 尽可能在生产系统部署前使用测试基础设施(参见原则3:建立人工智能治理与保障框架)。
鼓励采用推送式架构,将数据从OT网络推送至AI系统使用,避免AI系统持续访问OT网络。
在本地或云端部署AI系统时,优先确保组织对关键功能的控制权—这些功能可能被AI系统集成或启用。
o确保所有AI赋能系统流程均配备故障安全机制,可在必要时切换至传统自动化或手动模式。
将AI系统与任何新OT系统同等对待:测试AI系统的安全影响(如延迟、互操作性),并验证其符合现有设备管理政策(即新连接路径如远程访问需获批,且通过现有非军事区[DMZ]或跳转主机基础设施运行)。
限制人工智能在缺乏人类参与的情况下对OT基础设施的主动控制,以应对安全问题和延迟限制。
定期更新并验证人工智能模型的准确性和有效性。
原则3:建立人工智能治理与保障框架
3.1 在运营技术中建立人工智能治理机制
有效的治理结构对于人工智能安全可靠地融入运营技术环境至关重要。这包括为运营技术中的人工智能决策流程建立清晰的政策、程序和问责机制。AI治理架构应涵盖下列关键利益相关方,以及在采购、开发、设计、部署和运营阶段所需的AI供应商以确保全程监督。
AI治理机制中的关键利益相关方
领导层。获得包括首席执行官和首席信息安全官在内的高层领导承诺,对于建立稳健的人工智能治理框架至关重要。这有助于确保组织领导层全面投入人工智能系统的安全生命周期管理,并在考虑人工智能功能的同时关注其安全风险及缓解措施。
运营技术/信息技术领域专家。整合运营技术、信息技术和人工智能领域的专家至关重要,这能有效保障人工智能系统在运营技术环境中的安全集成。这些专家能提供宝贵的OT环境洞察,协助识别AI集成相关的潜在风险与挑战。
网络安全团队。协同网络安全团队制定政策流程,对保护AI模型使用的敏感OT数据至关重要。网络安全团队可协助识别潜在漏洞并提供缓解建议,从而维护组织数据安全。
人工智能治理机制的附加组件
治理结构的其他关键组件可能包括:
实施严格的数据治理政策以保护人工智能模型使用的敏感运营技术数据,包括加密、访问控制和用户行为分析。
明确划分角色与职责,确保参与AI系统开发、部署及运维的各方(如数据所有者、模型开发者和终端用户)理解各自任务与预期—避免在发生安全或运营事故时因责任归属引发的法律纠纷与混乱。
实施定期审计与合规性测试,帮助识别潜在问题并确保持续符合AI治理要求。
持续验证人工智能系统的性能表现,确保其符合组织目标及监管要求。
3.2 将人工智能整合至现有安全与网络安全架构
在将人工智能整合至运营技术环境时,关键基础设施所有者和运营商应考虑管理这些系统的现有安全与网络安全框架,并将人工智能系统评估嵌入现有的风险评估、缓解和监控流程。这意味着在整合人工智能系统时,必须纳入传统网络安全要求、漏洞管理及关键基础设施法规。这些流程包括:
定期安全审计与风险评估。执行或获取人工智能供应商执行定期安全审计与风险评估的证明,以识别人工智能系统中的潜在漏洞。
强健的安全控制措施。实施强健的安全控制措施(如加密、访问控制和入侵检测系统),以保护人工智能系统及数据并检测异常。 收集人工智能终端的流量日志和访问日志,并按资产和身份追踪数据外泄情况。
o收集人工智能终端的流量日志和访问日志,并按资产和身份追踪数据外泄情况。
o 集成数据防泄漏功能以检查提示和输出内容。
人工智能定制的安全信息。安全团队在评估风险或建模威胁时,应纳入AI相关的战术、技术和程序(TTPs)。例如使用MITRE ATT&CK®企业矩阵进行威胁行为者行为映射时,团队还应借助MITRE人工智能系统对抗威胁态势(ATLAS™)矩阵等工具,整合针对AI系统的专用TTPs。
3.3 开展全面的人工智能测试与评估
在将人工智能引入运营技术环境时,全面的测试与评估(T&E)对于保障系统安全可靠运行至关重要。操作人员应首先在专门设计用于测试的基础设施上对人工智能系统进行测试。低保真度测试可在T&E初期实现更快的测试迭代。或与供应商协作了解其测试方案,确认是否包含依赖项(如操作系统版本、协议等)。随着系统成熟,操作员可使用更真实的非生产系统进行测试,包括硬件在环测试。
仅在非生产环境完成充分测试后,方可将AI系统投入生产环境进行补充测试。当无需模拟物理效应时,虚拟化控制器可加速此测试流程。
关键基础设施所有者和运营商在进行AI测试评估时,还应遵守传统数据保护机制,例如避免在非生产环境暴露生产数据。
3.4 应对运营技术中人工智能的监管与合规考量
随着更多关键基础设施所有者和运营商将人工智能技术整合到其运营技术环境中,
监管与合规考量成为关键挑战。具体示例包括:
缺乏面向运营技术的人工智能标准。当前国际人工智能技术标准主要针对人工智能系统在信息技术环境中的部署。
可审计性。追溯或解释AI决策过程存在困难,可能导致监管审计复杂化。
安全认证。AI系统可能无法满足关键基础设施和OT环境所需的严格安全标准。
关键基础设施所有者和运营商应评估当前人工智能技术标准在其运营技术领域的适用性,因为人工智能技术标准正在快速演进。欧洲电信标准协会(ETSI)人工智能安全技术委员会制定的核心AI技术标准如下:
ETSI TR 104 128《人工智能安全(SAI);AI模型与系统网络安全指南》
ETSI TS 104 223《人工智能安全(SAI);AI模型与系统网络安全基准要求》
ETSI TR 104 048 人工智能安全(SAI);数据供应链安全
关键基础设施所有者和运营商应持续验证人工智能系统的性能是否符合严格的运营技术(OT)性能与安全法规。还需设定阈值机制,当人工智能系统输出低于性能安全阈值时,可自动切换至非人工智能系统。
原则4:将监督与故障安全机制嵌入AI及AI赋能的OT系统
最终,人类对功能安全负有责任。人类制造工具以确保或实现监督、安全及故障安全实践,人工智能工具亦不例外。
4.1 为运营技术中的人工智能建立监测与监督机制
关键基础设施所有者和运营者应通过清点所有人工智能组件及其依赖组件,对人工智能赋能的OT系统实施监督。记录并监控这些组件的输入输出数据。同时需建立并维护OT环境中的安全行为基准状态或阈值,以便明确何时需执行维护或从备份系统恢复。在将安全流程嵌入人工智能赋能的OT系统时,应考虑以下要点以确保有效实施与管理:
人机协同决策。确保决策过程具备充分透明度,使操作员和工程师参与决策,尤其针对关键的运营技术操作与行动。对于更被动的人工智能系统,操作员和工程师可通过将建议纳入现有变更管理流程来实现此目标。对于直接影响控制的主动式AI系统需谨慎使用,因问题可能在操作员察觉前恶化。当AI主动更新控制逻辑时,应设置安全阈值、备用传感器输出或状态变更机制,增加人机交互干预点。
人机交互决策的优势包括:
提升现场环境安全性。操作员在与人工智能驱动系统交互时提供情境信息并做出明智决策。
增强可靠性。人工监督有助于检测并纠正人工智能运行中的潜在错误或异常;监督机制同时维持人员培训,这对紧急情况至关重要。
增强信任度。通过让操作员参与其中,组织机构能建立对人工智能系统及其决策流程的信任。理解人工智能系统结果的正确性,以支持在运营技术环境中持续安全运行系统。关键基础设施所有者和运营商必须了解人工智能系统可能无法产生准确可靠结果的状态。这种理解包括对系统性能中误报和漏报的预期,以及误报与真实阳性基准率的对比情况。
实施异常检测与行为分析。为OT设备建立安全运行边界,用于检测AI漂移、影响安全性能的模型变更或安全风险。随着操作流程成熟,软件安全阈值可从设定值转向对日益复杂故障的异常检测。配置日志记录机制,确保AI决策可追溯以满足合规性与取证分析需求,同时确保记录的AI身份标识与常规机器或用户标识完全区分。
下例展示了操作员和工程师如何监控数据区内采用机器学习生成建议的预测性维护系统(仅限读取OT数据输出):
人工智能系统输出。针对设备停机时间的预测性维护建议。
异常检测算法。通过统计过程控制检测预测停机时间值中的异常值。
监控工具。实时仪表板、图表或指标,用于追踪人工智能系统性能并检测异常—理想情况下应集成至现有人机界面(HMI)视图中实现集中监控。
审计追踪。记录所有AI系统运行数据(含时间戳、输入输出信息),用于系统行为审计与分析。
主动安全评估/AI红队演练。定期评估AI系统功能,识别漏洞并测试系统韧性。
网络与外发安全。定义并实施网络控制措施;参见CISA《网络安全绩效目标》(CPGs) 2.F条款。
建立关键绩效指标(KPI)以衡量人工智能效能,并持续追踪进展。关键基础设施所有者和运营者应定期与人工智能相关方(如供应商、治理委员会和操作人员)召开审查会议,共同讨论成果、解决关切并确定改进方向。更多信息请访问美国网络安全与基础设施安全局(CISA)人工智能专题网页。
在部署前持续在模拟环境中验证和优化人工智能模型。定期更新威胁模型,纳入针对人工智能的攻击向量(如对抗性输入或数据投毒),并监控人工智能系统性能以识别异常或操纵企图。持续利用新的运营技术数据更新和优化人工智能模型,以提高准确性并减少误报/漏报。更多信息请参阅美国国家安全局联合指南《安全部署人工智能系统》。
探索新型AI可解释性与透明度工具。可解释人工智能(XAI)与透明人工智能是致力于提升AI系统可理解性的新兴研究领域。可解释性侧重于让用户理解AI个别决策背后的推理过程,而透明度则强调使AI系统的整体开发与运行过程公开透明。本质上,可解释性阐明AI作出特定决策的原因,透明度则聚焦于AI系统整体运作机制。关键基础设施所有者和运营者应尽可能探索可解释模型或工具,使人工智能决策更易于人类理解。
大型语言模型、预测性或深度学习系统往往运行不透明,难以对其决策依据进行审计或理解。这种透明度对运营技术(OT)的安全性和合规性至关重要。可解释人工智能(XAI)和透明人工智能工具旨在帮助开发者理解AI模型的运作机制;然而,这些技术能否满足OT环境的需求仍是未解之题。建议采用推送式或中介式架构,将所需特征或摘要数据移出OT系统,同时禁止持久性入站访问。当数据必须穿越至业务网络时,应采用单向传输模式并设置可审计的中转缓冲区。这种实施分段的方法有助于操作员维持现有的分段最佳实践,确保AI系统不会成为持续攻击OT的途径。
4.2 嵌入安全与故障安全机制
建立故障安全机制,使人工智能系统能够在不干扰关键操作的情况下实现优雅故障。将人工智能系统的新故障状态(包括如何绕过或替换人工智能系统)纳入现有的功能安全和事件响应流程。将人工智能系统集成到现有运营技术网络中,必然会为整个关键基础设施系统产生新的故障状态。因此,负责修订现有功能安全和事件响应流程的操作人员应纳入这些新故障状态,它们对确保系统安全运行至关重要。
设计考虑人工智能系统因素的功能安全规程。每个关键基础设施领域都有其独特的安全状态和规程。根据原则2——考虑在OT领域使用人工智能,关键基础设施所有者和运营商应审查其将人工智能系统集成到现有规程的方式,并制定新的安全使用和实施规程,重点关注人工智能系统在OT环境中的集成。
将人工智能考量纳入网络安全事件响应计划。尽管组织已竭尽全力进行风险缓解,但风险无法降至零;事件不可避免。为此,关键基础设施所有者和运营商应更新其事件响应计划及功能安全程序,纳入针对人工智能系统遭受恶意攻击及人工智能系统故障的响应步骤。访问美国网络安全与基础设施安全局(CISA)的《人工智能网络安全协作指南》,获取更多关于与利益相关方协作应对人工智能网络安全风险、以及自愿共享人工智能网络安全事件和漏洞信息的指导。随着部署的人工智能系统数量增加,针对现有IT和OT系统的人工智能攻击也将随之增多。
结论
将人工智能融入运营技术(OT)系统,为关键基础设施所有者和运营商带来了机遇与风险并存的局面。人工智能虽能提升效率、生产力和决策能力,但也带来了需要谨慎管理的新挑战,以保障运营技术系统的安全性、可靠性和稳定性。为成功规避AI融入OT系统的风险,关键基础设施所有者和运营者必须遵循本指南原则:理解AI技术本质、审慎评估AI在OT领域的应用场景、建立AI治理与保障框架、将安全防护措施融入AI及AI赋能的OT系统。通过遵循这些原则并持续监测、验证和优化AI模型,关键基础设施所有者和运营商能够实现AI与控制重要公共服务的OT环境之间的平衡整合。
声明:本文来自天极智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。