习近平总书记指出,人工智能带来前所未有的发展机遇,也带来前所未遇的风险挑战。要把握人工智能发展趋势和规律,加紧制定完善相关法律法规、政策制度、应用规范、伦理准则,构建技术监测、风险预警、应急响应体系,确保人工智能安全、可靠、可控。

2025年11月28日在南京召开的第五届网络空间内生安全学术大会,聚焦“AI+生态构建新挑战,安全可信新机遇”核心主题,由紫金山实验室牵头,联合国家数字交换系统工程技术研究中心、嵩山实验室、东南大学、复旦大学、中国网络空间内生安全技术与产业联盟等单位,通过多渠道、多层次的深入调研与系统梳理,正式发布“AI+生态构建八大安全挑战”,旨在凝聚行业共识,为破解AI应用信任赤字、提升AI应用韧性安全能力、构建可信AI“度量衡”体系提供重要指引。

挑战一

AI模型先天缺乏安全设计

当前主流AI模型架构的设计核心聚焦于性能优化,首要目标是提升准确率、加快推理速度与增强泛化能力,却普遍未将安全性纳入系统性考量框架。这些架构在各自领域展现优异性能的同时,因设计之初未充分兼顾对抗攻击防护、隐私保护、可解释性增强等安全需求,导致安全防护只能依赖后期外部加固手段,难以从根源上抵御风险。例如,Transformer架构的注意力机制在强化模型表达能力的同时,也暴露了新的攻击面,而现有设计中缺乏内生的鲁棒性保障机制。此外,架构设计领域尚未形成统一的安全性评估框架与设计准则,开发者在架构选择阶段,难以量化评估不同方案对安全性的潜在影响。如何在模型架构中引入性能与安全并重的核心原则,研发兼具高性能与高安全特性的新型架构,已成为AI领域亟待破解的关键挑战。

挑战二

AI加剧数据“裸奔”风险

AI的广泛应用进一步加剧了数据‘裸奔’的风险,在数据全生命周期的处理环节中潜藏着多重隐私泄露隐患。AI模型的训练、部署与运营需以海量数据为支撑,这些数据中往往包含个人敏感信息与企业核心业务数据,极易成为隐私泄露的源头。更需警惕的是,针对AI模型的专项攻击持续升级,非法获取远程访问权限、模型逆向攻击技术突破以及成员推断等精准攻击手段,往往能绕过常规防护措施,直接窃取训练数据或还原敏感信息,给个人合法权益与企业安全造成严重威胁。

挑战三

AI供应链安全存在多米诺骨牌效应

随着AI生态系统的不断复杂化,从数据提供商、模型开发者到云服务提供商,整个供应链的任一环节都可能成为攻击切入点。威胁行为者正加速运用自动化工具与AI技术发起供应链攻击,此类攻击具有影响范围广、检测难度大、传播速度快的显著特征。一旦上游供应商的AI模型遭遇投毒攻击,风险可能快速传导,波及数千个下游应用与数百万用户,而现有安全防护体系难以有效应对这种系统性、连锁式风险。

挑战四

AI“黑箱”引发应用信任危机

深度学习模型的决策机制如同 “黑箱”,其复杂的神经网络结构与数以亿计的参数,使得模型的推理过程对人类完全不透明。即便是模型开发者,也无法精准解释模型在特定输入下产生某一输出结果的具体逻辑与原因。这种不可解释性在医疗诊断、金融风控、司法判决等高风险决策场景中尤为致命:医生无法理解AI诊断系统的推理依据,难以结合临床经验做出综合判断;法官难以阐明AI辅助判决的逻辑基础,影响司法判决的透明性和可解释性;金融机构无法向客户清晰说明AI信贷决策的具体缘由,不利于保障消费者的知情权。缺乏可解释性不仅阻碍了专业人士对AI系统的信任建立,也导致错误决策难以被及时发现与纠正,严重制约了AI在关键领域的可靠应用。

挑战五

AI恶化基于漏洞的攻防不平衡态势

AI在网络安全领域的“双刃剑”效应愈发凸显,既革新了防御能力,也叠加了漏洞利用、智能攻击等多重风险。一方面,AI通过智能流量分析与攻击行为识别,能从海量数据中精准捕捉异常特征,大幅提升网络威胁的预警与拦截效率,成为抵御传统攻击的核心技术支撑;另一方面,大模型的代码生成与攻击工具调用能力显著降低了攻击门槛,使攻击者可快速利用已知网络漏洞实施精准渗透,且攻击手段更隐蔽、传播速度更快。同时,AI模型自身存在的算法缺陷与安全漏洞,使其易遭受对抗攻击。人眼不可见的微小数据扰动,就能诱使模型输出错误结果。这些风险在金融、安防等敏感场景中相互叠加,可能引发数据泄露、系统瘫痪、决策失准等严重后果。

挑战六

AI面临多元价值对齐困境

AI系统优化的核心是可量化的数学目标,而人类社会的价值体系具有复杂、多元甚至模糊的特性,二者之间存在根本性偏差。从伦理层面来看,人类价值观本身存在多元甚至对立的立场,难以确立统一且公正的价值对齐基准。此外,能力强大的模型可能为高效达成预设优化目标,采取有悖人类伦理的“奖励黑客”行为;同时,数据中隐含的社会偏见会被模型复制并放大,进一步加剧价值冲突。技术层面的不可量化性、伦理层面的共识难题以及模型能力带来的不可预测风险,共同构成了价值对齐的核心困境。如何确保AI系统的优化目标与人类长期、整体及多元价值观真正保持一致,是一项兼具哲学与技术双重属性的艰巨难题。

挑战七

AI生成内容监管与模型溯源困难

AI生成内容的判定面临双重核心挑战:一是判定内容是否为AI生成,二是判定生成内容的真实性。在第一层判定中,基于相似Transformer架构与海量公开数据训练的模型,其输出在语法、逻辑与风格上日益趋同,导致生成内容的“指纹”特征愈发模糊,难以实现有效区分与溯源;而模型微调、提示工程等简单且低成本的技术手段,能轻易破坏或规避旨在识别和追踪的模型水印与指纹,进一步增加了判定难度。在第二层判定中,生成式AI可能产生“幻觉”现象,以高度可信的表述方式编造不存在的事实、引用虚假数据,使用户难以辨别其输出是基于真实知识还是精巧构造的虚假信息,这对知识问答、法律文书生成及科学研究等对事实性要求极高的领域具有致命影响。同时,开源模型的自由分发与修改切断了原始溯源链条,闭源模型的不可解释性则从外部阻断了特征分析的可能。这些深层次技术挑战,共同构成了当前治理体系难以逾越的识别与溯源壁垒,使得在激励技术创新与规避社会风险之间,重构可控、可信的AI发展新范式成为迫切需求。

挑战八

AI安全评估与认定缺乏技术支撑

当前行业尚未形成公认的AI模型性能、安全性及可靠性量化评估标准,不同供应商可能特意选取对自身有利的数据或指标展示产品优势,导致市场评价缺乏客观统一的依据。AI模型算法安全涉及训练、推理、部署等多个环节的风险,涵盖鲁棒性、泛化性、可解释性、偏见与歧视等多个核心维度。然而,现有评估多局限于特定数据集上的实验室指标,难以全面反映模型在真实动态环境中的实际表现。这种标准体系的缺位,使得企业在推进AI创新时面临法律边界模糊、自律与他律难以落地的困境,严重阻碍了AI产业的健康可持续发展。

撰稿 | 网络空间内生安全学术大会组委会

编辑 | 钱雨

校对 | 姜晨

审核 | 杨梅樾

声明:本文来自紫金山实验室,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。