文 | 智能算法安全全国重点实验室(中国科学院计算技术研究所) 程学旗 尹芷仪 张玉洁 张晓敏
智能算法作为人工智能发展的核心引擎,已深度融入生产生活的方方面面,大幅提升生产效率和生活便利程度。随着智能算法的不确定性增强和决策自主度提高,其在高效赋能生产生活的同时,也引发了算法透明度与可解释性弱化、滥用误用风险加剧、对抗攻击易操纵性上升等多重风险。为此,本文在调研分析国内外智能算法治理经验的基础上,以智能算法安全层级范式为理论指导,探索构建“原理可信、过程可管、结果可靠、系统可控”的安全治理技术体系,并提出对技术体系进行完善与落地的对策建议,助力智能算法健康有序发展。
一、算法安全治理的内涵与现状
世界各国正加快构建人工智能治理体系,形成了各具特点的算法治理模式。欧盟采取以立法为主导的“硬法”监管模式,以《人工智能法案》为核心,确立了基于风险分级的强约束治理框架。美国施行以创新优先为导向的“软治理”模式,建立了以《人工智能权利法案蓝图》《人工智能风险管理框架》等为代表的非强制性治理框架。中国则采取由政府主导的、自上而下的算法治理路径,形成了立法、标准、行动等为一体的协同治理体系。《互联网信息服务算法推荐管理规定》《生成式人工智能服务管理暂行办法》等首创性法规,奠定了推荐算法与生成式人工智能的规制基础。《信息安全技术机器学习算法安全评估规范》(GB/T 42888-2023)、《生成式人工智能服务安全基本要求》(TC260-003)等国家标准进一步加强行业规范。监管部门持续开展“清朗”系列专项行动,聚焦算法典型问题重点治理。此外,中国还提出《全球人工智能治理倡议》《人工智能安全治理框架》2.0版等,为全球人工智能治理贡献中国智慧。
智能算法安全治理引发学术界热议。国外形成了监管约束与技术自愈两大主流范式。以英国诺贝尔物理学奖得主杰弗里·辛顿(Geoffrey Hinton)、法国图灵奖得主约书亚·本吉奥(Yoshua Bengio)为代表的风险警示派强调通用人工智能可能威胁人类生存,主张通过国际公约、许可制度与强制安全审查等监管手段对高风险算法实施严格管控。以法国图灵奖得主杨立昆(Yann LeCun)为代表的技术乐观派则主张通过开源开放、社区协作、架构创新构建具身世界模型,从内部提升系统透明性与可控性。国内科研机构也充分认识到智能算法治理的复杂性与紧迫性,在建机构、强技术、树标准、聚人才等方面积极布局。例如,中国科学院面向人工智能安全世界科技前沿和算法安全治理国家重大需求,成立了智能算法安全全国重点实验室,开展智能算法安全系统性、建制化科研攻关。中国信息通信研究院构建了涵盖大模型、智能语音、机器学习等人工智能算法及应用的“可信人工智能”评测体系,并开展常态化安全评测服务。
业界积极开展算法治理实践活动。国外科技企业针对算法公平性、隐私性、透明度、内容多样性、特殊群体保护等问题,推出相应举措。谷歌发布七项人工智能指导原则,明确提出人工智能应用要避免造成或加深偏见。Meta推出“隐私中心”,明确告知用户个人信息收集和处理的详细情况,并提出增强模型生成结果的质量与多样性的解决方案。OpenAI为ChatGPT设立了多层安全防护体系,包括实时输出过滤、用户举报机制和红队测试,降低模型风险并提升安全性。Facebook、Instagram、X等社交媒体平台提供青少年模式,加大对特殊群体的保护力度。国内科技企业积极践行算法安全主体责任。抖音设立安全与信任中心,公开算法原理,提升算法透明度,保障用户知情权。小红书上线“内容偏好评估与调节”“探索更多”功能,可视化呈现信息茧房程度,支持用户灵活调节兴趣偏好,保障用户选择权。美团公示配送时间与费用计算规则,取消骑手超时扣款的规定,保障劳动者权益。为提升大模型安全,腾讯、阿里、百度等企业纷纷采取了安全护栏与价值观对齐机制等措施,强化生成内容的可靠性和安全性。
总体来看,国内外政产学研各界在法律规制、标准规范、技术治理等方面取得一定进展,但是由于受算法黑箱化、应用场景多元化和治理切入点差异化的影响,导致各领域尚未形成统一认知,仍处于治理范式不可融通的阶段。为进一步夯实我国算法治理实践,亟须建立科学统一的基础理论体系,加快提升安全治理技术能力。
本文基于智能算法应用场景、人机交互程度、威胁程度等,将智能算法安全划分为算法内生一元、人机交互二元与人机共生多元等三个安全层级,为理解与辨识算法安全风险提供参考依据。
一是算法内生一元安全层级。算法作为生产工具能够帮助人类提升物理空间已有任务的执行效率、减少人类投入,或降低对生态环境的不良影响,但智能算法的高复杂、强不确定性等特点使其存在内生缺陷,导致工业制造、自动驾驶、自动交易等系统容易出现宕机、崩溃、错乱等问题,如特斯拉出现自动驾驶事故、算法将操作人员误判为物料等现象频发,严重影响国计民生安全。
二是人机交互二元安全层级。大量算法依托平台为用户提供交互式智能服务,如搜索推荐算法为用户提供快速准确的信息获取服务,外卖平台算法为消费者、商家、快递员提供实时、高效的配置方案,但平台也可能滥用误用算法,如过度追求效率而压缩派单时间,从而损害用户权益和社会公平稳定。
三是人机共生多元安全层级。算法可以通过物理空间和网络空间与人类共同参与社会活动,形成人类智能和机器智能交织的人机共生系统,如智能体社交平台、智能算法参与的金融交易系统等。算法也可能通过行为传导而触发系统性安全风险,如基于社交平台的选举操控、算法系统失控引发金融崩溃风险。
上述三个安全层级之间存在显著的关联性与差异性。一方面,智能算法的三个安全层级依次嵌套,算法内生一元安全层级是人机交互二元安全层级中机器在物理域为人提供的局部服务,人机交互二元安全层级是人机共生多元系统的人机二元局部交互系统,因此会使单个智能算法面临跨层次的安全风险。另一方面,三个安全层级所关注的安全风险类型和产生机理都存在差异。一元场景关注由算法内生缺陷导致算法性能不可信,二元场景关注由算法应用中的滥用误用导致算法服务不可管,多元场景关注由人机算法博弈对抗导致系统演变不可控。据此,本文提出一元内生决策可信(trustworthiness)、二元服务应用可管(regulatability)、多元系统风险可控(controllability)的智能算法安全治理目标,即智能算法安全层级范式(以下简称“TRC范式”)。本文基于“TRC范式”构建智能算法安全治理技术体系,推动算法向“可信、可管、可控”的方向发展。
二、算法安全治理技术体系的构建
当前,全球人工智能和算法治理技术框架依据不同国情、法律传统及合规要求,呈现出差异化、流程化和强问责性的演进趋势。例如,欧盟《人工智能法案》提出基于风险的分级监管,设定了严格的法律红线和市场准入门槛。美国国家标准与技术研究院则提供了一套自愿且灵活的风险管理生命周期,其核心功能是治理、映射、度量和管理,侧重于组织内部实施和进行过程问责。英国等国家的学者主张采用算法审计框架,通过白盒过程评估,对系统的鲁棒性、公平性、隐私性等风险进行量化审计。德国学者则提出了人工智能代理人监管框架,以差异化监管为核心,致力于解决“信息不对称”和“代理损失”问题,并将市场、结果、目标导向和过程四类问责机制与不同风险场景进行精准适配。
然而,现有的技术治理框架面临监管刚性与技术灵活性不匹配、商业保护与审计需求相冲突、问责机制缺乏可落地的技术支撑等挑战,导致落地难、执行易断层。为此,本文基于“TRC范式”理论,提出一套符合中国治理需求,更具操作性,覆盖“原理可信、过程可管、结果可靠、系统可控”的全链条技术治理体系。
如图所示,该技术体系以“内生可信”为核心基石,通过价值观对齐筑牢治理理念的伦理根基,依托算法透明与可解释性稳固用户信任基础;以“过程可管”为关键抓手,通过算法仿真、黑箱监测、算法评估实现全流程把控;以“结果可靠”为核心目标,聚焦精准鲁棒、公平无歧视,辅以可问责追溯与可干预修正的机制,确保算法输出兼具实用性与合规性;以“系统可控”为安全保障,通过风险传导建模、临界点调控、应急终止机制,抵御系统性风险。四者层层递进,形成“基础—过程—目标—保障”的治理闭环。

图 全链条技术治理体系框架
(一)内生安全增强促进原理可信
内生可信着眼于算法的底层设计和运行逻辑,主要通过价值观对齐、算法透明、算法可解释等方式,确保其行为模式符合社会规范、监管要求和用户预期。
价值观对齐是确保算法行为与人类的伦理规范、法律要求及核心价值观保持高度一致的关键保障。通过数据净化、知识编辑以及应用人类反馈强化学习(RLHF),将价值判断融入模型优化。
算法透明要求平台向社会公开披露算法的数据来源、运作逻辑和机制机理等关键信息,从而建立社会信任。通过算法备案、信息公示、建设透明度网站及设立申诉反馈渠道,保障用户的知情权和申诉权。
算法可解释旨在揭示复杂算法做出特定决策的原因和依据,确保其决策过程能被人类清晰理解和有效审查。在技术层面,通过发展和应用LIME、Shapley值等可解释人工智能技术,实现输入特征对输出结果贡献度的精确量化。在产品应用实践中,则通过“被推荐的理由”等清晰的交互提示,使用户直观掌握决策核心逻辑。
(二)应用安全评估实现过程可管
应用安全评估是实现“过程可管”的核心,重点规避触及商业机密与隐私数据,通过非侵入式、不泄露商业机密的算法仿真、黑箱监测及安全评估等方式,实现对算法运行全流程的动态监测评估。
算法仿真是实现应用安全过程可管的首要环节。通过构建高保真的沙盒环境,利用脱敏数据集模拟不同用户画像和极端场景,提前预判公平性、鲁棒性、多样性等方面的潜在风险。
黑箱监测是一种非侵入式且能够有效保护商业机密的动态监管手段。它不依赖读取内部源代码或敏感数据,而是通过持续观测算法的输入与输出评估其合规性。针对内容安全违规率、过度推荐或泛娱乐占比等关键风险指标设定预警阈值,实现对算法行为偏离预期的实时、动态判断。
安全评估旨在建立标准化、体系化的综合评估框架,定期全面评估算法的公平性、安全性、透明度和社会责任履行情况。评估强调多方协同,引入第三方独立机构和监管部门联合审计,确保评估的公正性和客观性,形成结果反馈、分析与持续改进的闭环。
(三)可信决策机制保障结果可靠
可信决策机制是保障结果可靠的核心,重点确保算法决策的输出持续稳定,符合用户预期、监管要求与社会伦理规范,涵盖精准鲁棒、公平无歧视与可问责、可干预等方面。
精准鲁棒要求算法决策在具备高准确性的同时,面对外界扰动、数据漂移或恶意攻击等非预期情况,仍能保持决策稳定性与一致性,借助对抗训练等技术增强模型泛化与抗干扰能力。
公平无歧视要求算法在面对不同群体时无系统性偏差与歧视。可通过定义量化公平指标,在模型训练中引入公平性约束或去偏技术,消除数据与模型结构偏见,保障不同群体决策待遇一致。
可问责、可干预要求完整记录算法关键决策中间步骤,以审计日志与决策链记录为核心支撑,对算法机制具备人性化的实时纠错能力,包括设置人工干预阈值、建立高风险决策人工审核机制以及快速反馈机制,实现决策规则的及时、定向调整。
(四)系统演化建模实现系统可控
系统演化建模是实现“系统可控”的核心,将算法系统视为复杂动态系统,通过建模预测其长期行为和潜在宏观风险,掌握算法系统与外部环境、用户群体的交互动态,确保系统整体稳定安全。
风险传导建模旨在建模算法风险在系统内外的扩散路径与强度。通过构建系统动力学模型和风险图谱,精确分析局部算法偏差或数据失真是如何通过传播效应、信息茧房等机制放大并蔓延为全局性、系统性风险。
临界点调控聚焦系统从安全状态转向风险状态的关键阈值,通过实时监测极化程度、信息集中度等关键变量,及时预警接近临界点或质变的迹象。系统达到或接近该阈值时,自动或人工触发调节策略,避免陷入灾难性失控。
应急与终止机制是保障系统可控的最后一道防线,要求系统预先设计分层级、快速响应的危机处理流程,包括风险触发时的隔离、降级和修复等应急预案,以及在极端情况可快速安全地执行“一键终止”或系统降级的硬性控制手段。
三、实践成效及对策建议
我国已构建了常态化的算法治理模式,涵盖备案制度稳步实施、算法应用评估审查、专项行动重点治理及安全风险周期性监测,将“技术向善”伦理原则转化为强制性法律规范与可操作监管实践。主流互联网信息服务平台也积极配合国家监管部门开展算法治理行动,并通过设立安全与信任中心、公开算法、取消超时扣款等举措,提升算法透明度,保障劳动者合法权益。
目前,构建“原理可信、过程可管、结果可靠、系统可控”的全链条技术治理体系的工作已取得进展,尤其是突破黑箱机制下算法安全评估与风险监测等关键技术,提升了监管部门对典型算法风险的发现与取证能力。受理论基础薄弱、标准体系缺失、技术体系不健全等因素制约,算法治理仍面临算法机理不明、安全边界难定、风险来源难辨等科学挑战,信息茧房、大数据杀熟、劳动者权益损害等算法顽疾也尚未根除。为此,应从基础理论、标准体系、系统工程等层面筑牢根基,持续完善并落地算法安全治理技术体系,推动算法可信、可管、可控能力升级。
(一)夯实智能算法安全基础理论
为深化对智能算法安全治理技术体系的认知,构建统一的治理范式,需从智能算法基础理论研究、安全治理理论、跨学科治理理论等方面夯实基础研究。
一是注重智能算法基础理论研究。重点突破深度学习、强化学习等核心算法的可解释性瓶颈,构建有效量化与保障算法鲁棒性、公平性与隐私性的理论基础模型。积极探索面向人机共生环境的新型算法范式,提升算法在开放、对抗环境的内在安全与自主免疫能力。
二是加强算法安全治理理论研究。构建覆盖算法全生命周期的风险动态评估与监测理论体系。研究算法黑箱下风险监测的透明化、算法复杂状态下的安全边界探明、算法风险级联传导下的精准溯因等科学问题与关键技术,为算法的可信、可控、可管提供重要的技术支撑与理论验证。
三是建立跨学科治理理论框架。推动计算机科学、法学、经济学与社会学等多学科的理论融合,赋能人机共生多元系统风险的精准建模,推进算法治理与社会治理的有机结合,为制定精准适配技术发展的监管政策与标准规范提供坚实的科学依据。
(二)构建智能算法安全标准体系
为推动技术体系与监管需求、业务生态的深度融合,促进理论、标准与技术治理的高效协同,需从多元共建机制、多维标准体系、多层次标准协同等方面建立健全标准体系。
一是建立智能算法安全标准多元共建机制。构建政府引导、企业主导、专家参与的多元共建格局,形成产学研用深度融合的标准研究生态,奠定多维度、多层次标准生态的机制基础。
二是明确智能算法安全多维度标准体系。横向拓展维度,构建覆盖人工智能全生命周期、国家安全风险全维度的技术与管理标准;纵向深化覆盖,建立贯通第三方检测、认证流程、结果互认的测评认证标准体系。
三是推动内外联动的多层次标准协同。积极推动我国对国家标准、行业标准与团体标准的完善,主动参与国际组织人工智能标准制定,推动国内成熟的标准实践与国际标准体系对接,助力全球人工智能治理体系的构建。
(三)打造国家级算法安全治理平台
为促进算法安全治理技术体系的延伸落地,提升我国算法治理综合水平,需加快建设国家级算法治理平台,推动涵盖内容生产、传播、影响的全周期风险治理能力的升级。
一是加快建设国家级算法风险监测与安全评估平台。推动算法治理技术体系的落地,以及“以技治技”能力体系的构建与升级。全面赋能算法安全风险监测、算法安全评估、科技伦理审查、算法备案管理等多维一体的综合治理能力,实现算法多层级风险的可视化呈现、算法应用实时动态监测以及算法风险精准发现与量化评估,推动算法治理从被动处置向主动发现、早期预警的转变,提升算法安全治理智能化水平。
二是构建涵盖内容生产、传播、影响的全周期风险治理框架。持续推进内生安全和全过程透明监管等技术能力的建设与完善。建立以智能大模型为核心的风险防范体系,提升模型生成内容的源头把控能力。建设算法过程动态调控与精准干预能力,控制风险内容的传播速度和范围,阻断风险传播路径。建设算法风险精准溯因与内容生态向善引导能力,有效遏制多层级安全风险的扩大化。
(本文刊登于《中国信息安全》杂志2025年第12期)
声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。