编者按
关于从国际视角看待人工智能产业、国家能力、安全、治理等议题,本公号发表过以下报告:
今天和大家分享公号君的一篇观察和感想。
过去,人们谈论前沿人工智能(frontier AI)风险,常常把重点放在模型是否会产生虚假信息、是否会替代劳动、是否会失控。现在,另一个更冷硬的问题浮出水面:当一个模型已经具备强大的网络攻防能力(cyber capabilities),谁能使用它,谁不能使用它,谁先使用它,谁只能等待别人告知风险?
Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.4-Cyber,把这个问题推到了台前。Mythos 的案例先引发震动。Anthropic 通过 Project Glasswing 向少数机构开放 Claude Mythos Preview,理由是用前沿AI帮助加固关键软件。该项目的首批合作方包括 Amazon Web Services、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、NVIDIA、Palo Alto Networks 等,并扩展到四十多个构建或维护关键软件基础设施(critical software infrastructure)的组织。Anthropic 称,Mythos Preview 已经发现数千个零日漏洞(zero-day vulnerabilities),并以受控研究预览(gated research preview)的方式提供。
但另一个事实同样重要:访问权并不是全球均等分配的。相关报道显示,Anthropic 最初列出的合作伙伴全部来自美国,英国是美国之外少数获得访问的国家;欧盟、德国等监管机构只能通过会谈、询问和有限信息来评估影响。Mythos 因此不只是一个技术事件,也成为一个地缘政治事件。它使许多国家第一次清楚看到:前沿AI能力一旦越过某个门槛,就不再像普通软件产品,而更像一种战略能力。
紧接着,OpenAI 推出 GPT-5.4-Cyber。OpenAI 的路径不同。它不是完全扣住模型,而是通过 Trusted Access for Cyber,简称 TAC,建立分层访问(tiered access)机制。OpenAI 称,GPT-5.4-Cyber 是基于 GPT-5.4 的网络安全特化版本,面向合法防御工作降低拒绝边界(lower refusal boundary),支持更高级的防御流程,包括二进制逆向工程(binary reverse engineering)。由于这一版本更加 permissive,OpenAI 采取有限、迭代部署(limited, iterative deployment),先提供给经过审查的安全厂商、组织和研究人员。
据 Axios 报道,OpenAI 已经向美国联邦机构、州政府和五眼联盟(Five Eyes)成员介绍 GPT-5.4-Cyber,并在华盛顿向约五十名联邦网络防御人员演示其能力。OpenAI 采取双轨策略:一条轨道是带有强安全措施、较广泛可用的版本;另一条轨道是更具网络 permissive 特征的版本,通过 TAC 提供给经过验证的防御者。 Reuters 后续转述称,OpenAI 将 GPT-5.4-Cyber 描述为专为防御性网络安全工作微调的最新旗舰模型变体,并确认其初期以有限方式提供给经过审查的安全供应商、组织和研究人员。
这两个案例路径不同,但结论相同:超强AI网络能力(frontier AI cyber capabilities)的访问秩序正在形成。只是,这一秩序首先不是由国际条约、政府间机制或多边组织制定,而是由少数前沿AI公司、少数安全机构、少数盟友网络和少数大型企业共同塑造。
这正是问题所在。网络安全本来就是典型的两用领域(dual-use domain)。发现漏洞(vulnerability discovery)可以用于修补系统,也可以用于入侵系统。漏洞验证(vulnerability validation)可以帮助企业确认风险,也可以帮助攻击者筛选目标。漏洞利用(exploit development)可以服务红队测试(red-teaming),也可以服务恶意攻击。恶意软件逆向(malware reverse engineering)可以帮助防御者理解攻击链,也可能帮助攻击者改进绕过手段。攻击面分析(attack surface analysis)可以保护银行、电网、水务系统和云服务,也可以使这些系统更容易被定位和打击。
因此,AI在网络安全中的两用性,不是“一个好工具可能被坏人拿去用”这么简单。更准确地说,防御与攻击共用同一条能力链。模型越能读懂复杂代码,越能发现隐藏错误;越能自动推理多步骤操作,越能构造复杂攻击路径;越能帮助开发者修补漏洞,越可能帮助攻击者找到尚未修补的入口。
Anthropic 在 Mythos 的技术说明中说得很直接:Mythos Preview 在测试中能够识别并利用主要操作系统和浏览器中的零日漏洞;同样的代码、推理和自主能力提升,使模型更擅长修补漏洞,也更擅长利用漏洞。 这句话几乎可以作为整个问题的注脚。AI网络能力的风险,不来自某个孤立功能,而来自通用能力(general capability)在安全场景中的迁移。
OpenAI 的 TAC 申请页面也承认这一点:这些能力对网络防御者是强大的力量倍增器(force multiplier),但恶意攻击者也可能用类似工具扩大攻击规模和复杂度;其风险缓解方式是要求成员提供额外身份验证和专业用例信息。 这说明,能力本身不能简单区分善恶。真正可区分的,只能是主体、授权、场景、监督和责任。
这就把问题从“模型能做什么”推进到“谁有资格让模型做什么”。
Anthropic 的路径,可以称为严控扩散。Mythos 不面向公众发布,只给部分关键软件维护者和机构提前使用,目的是让防御者先找到并修补问题。这一思路有合理性。若一个模型能够快速发现大量高危漏洞,无条件公开就可能压垮现有补丁节奏。银行、医院、电力系统、政府系统、浏览器和云基础设施,无法在一夜之间完成加固。先把能力交给能够修补底层系统的机构,是一种风险压低策略。
但严控扩散会产生另一个问题:谁被认为有资格进入名单?谁被排除在外?若模型发现的是全球通用软件中的漏洞,为什么只有少数国家和少数企业能提前知道?那些使用同样软件、承受同样风险、却没有访问权的国家和机构,应当如何防御?
OpenAI 的路径,可以称为分层扩散。它承认防御者需要更强工具,也承认高能力工具不能像普通聊天模型一样开放。于是,它用身份认证、用例说明、访问层级、用途限制、日志和审查构成一套准入机制。OpenAI 还称,已经向美国 CAISI 和英国 AI Security Institute 提供 GPT-5.4-Cyber,以便开展网络能力和安全措施评估。
这一路径同样有合理性。现实世界中,很多关键基础设施运营者并没有充足安全团队。地方水务系统、小型医院、州政府机构、开源软件维护者,往往是最需要自动化安全能力的一方。若最强AI只由极少数科技巨头和国家安全机构使用,防御红利会集中化;若经过验证的防御者能够获得分层访问,至少有可能扩大安全收益。
但分层扩散也没有解决根本问题。谁来定义“可信防御者”(trusted defender)?企业的审查标准是否透明?被拒绝访问的机构是否有申诉机制?访问资格是否会沿着商业关系、联盟关系和国家安全关系分配?当模型帮助发现跨国漏洞时,情报共享(threat intelligence sharing)是服务全球防御,还是服务少数客户、少数盟友和少数监管机构?
所以,Mythos 与 GPT-5.4-Cyber 的差异,并不是“封锁”与“开放”的差异。它们更像两种公司主导的访问治理(access governance)。Anthropic 强调先控住危险能力,OpenAI 强调把能力分层交给防御者。两者都试图回答一个真实问题:超强AI网络能力不能简单公开。但两者也共同暴露一个制度空白:公共安全性质的访问规则,正在由企业合同、邀请名单和信任圈层来承担。
这不是对企业的简单指责。事实上,在国际制度缺位的情况下,前沿AI公司如果完全不设门槛,风险更大;如果完全不提供防御访问,风险也大。企业现在是在不完整的制度环境中被迫做准公共决策。但问题恰恰在这里:这些决策事实上具有公共安全后果,却缺少公共授权、外部审计、跨境协调和责任分配。
访问权正在变成新的地缘政治资源。过去,AI竞争主要表现为算力(compute)、数据(data)、芯片(chips)、人才(talent)和模型权重(model weights)的竞争。现在,还要加上一项:高风险能力的访问权(access to high-risk capabilities)。谁先获得模型,谁就可能先发现漏洞、先修补系统、先理解风险、先制定标准。谁没有访问权,谁就只能等待别人披露,或者在攻击发生后被动应对。
这对于关键基础设施尤其严峻。全球银行、电网、港口、医院、航空、通信和政府系统,并不是按AI公司的客户名单来运行的,也不是按五眼联盟边界来承受风险的。一个基础软件漏洞可能同时影响美国银行、欧洲能源企业、亚洲医院、非洲通信网络和拉美公共部门。可访问权却可能首先沿着美国公司、英美安全机构、既有情报联盟和大型商业客户分配。这种不对称,会把技术优势转化为防御优势,也可能转化为情报优势和规则优势。
更冷峻的是,风险不会等待治理完善。Anthropic 预计类似网络能力可能在不长时间内扩散。OpenAI 也明确把自身做法建立在一个判断上:未来更强模型会不断出现,防御者必须随着能力提升同步获得工具。也就是说,能力扩散不是是否发生的问题,而是如何发生、由谁管理、以什么条件发生的问题。
现有国际AI治理已经意识到前沿AI风险,但还没有建立能力访问制度。
2023 年的《布莱切利宣言》(Bletchley Declaration)已经承认,前沿AI可能带来故意滥用和控制失效等重大风险,尤其涉及网络安全(cybersecurity)和生物技术等领域。 2024 年首尔AI峰会的前沿AI安全承诺(Frontier AI Safety Commitments)要求企业说明风险缓解措施、设定风险阈值,并在风险无法降到阈值以下时停止开发或部署。 欧盟《人工智能法》(EU AI Act)第55条则要求具有系统性风险的通用AI模型提供者进行模型评估、系统性风险识别和缓解、严重事件报告,并确保模型和物理基础设施具备足够网络安全保护。
这些安排重要,但它们主要回答的是开发者如何评估、控制和报告风险。它们还没有充分回答另一个问题:当一个模型已经具备高度两用的网络能力时,哪些外国政府、监管机构、国家计算机应急响应组织(CERT)、关键基础设施运营者、开源维护者和独立研究人员可以获得防御性访问?访问如何分层?谁来审核?谁能审计审核者?企业拒绝访问时是否需要说明理由?模型发现的漏洞如何跨境协调披露(coordinated vulnerability disclosure)?被模型能力影响但无法访问模型的国家如何保护自己?
这是AI治理的下一道硬题。安全承诺不是访问制度。红队测试不是分配机制。企业自律不是国际安排。没有这些制度,所谓“可信访问”很容易退化为“被少数主体信任者的访问”。
未来更可行的方向,不是简单要求全面开放,也不是要求永久封锁,而是建立国际化、分层、可审计的防御性访问机制。
Mythos 和 GPT-5.4-Cyber 不是终点。它们只是信号。今天是网络安全模型,明天可能是生物设计模型(bio-design model)、自动化科研模型(automated research model)、金融交易模型(financial trading model)或军事规划模型(military planning model)。只要模型能力足够强,访问权就会成为治理对象。
真正危险的局面,不是某家公司谨慎,也不是某家公司分层开放。真正危险的是,全球社会面对高风险AI能力时,只有公司规则,没有公共规则;只有盟友通道,没有国际通道;只有安全承诺,没有访问安排;只有少数主体先知道、先测试、先修补,其他人只能等待。
从 Mythos 到 GPT-5.4-Cyber,一个新的事实已经出现:前沿AI不再只是被发布、购买和使用的产品。它开始成为一种需要分配、审查、保护和问责的能力。AI治理的重点也必须随之改变。问题不再只是“模型是否安全”,而是“危险但必要的能力,应当由谁在什么条件下使用”。
这个秩序正在形成。现在的问题是,它会成为少数公司的准入名单,少数国家的安全特权,还是成为一种更广泛、更透明、更可问责的国际制度。答案还没有出现。但窗口正在变窄。
声明:本文来自网安寻路人,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。