从Mythos到GPT-5.4-Cyber：超强AI网络能力的访问秩序正在形成

编者按

关于从国际视角看待人工智能产业、国家能力、安全、治理等议题，本公号发表过以下报告：

今天和大家分享公号君的一篇观察和感想。

过去，人们谈论前沿人工智能（frontier AI）风险，常常把重点放在模型是否会产生虚假信息、是否会替代劳动、是否会失控。现在，另一个更冷硬的问题浮出水面：当一个模型已经具备强大的网络攻防能力（cyber capabilities），谁能使用它，谁不能使用它，谁先使用它，谁只能等待别人告知风险？

Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.4-Cyber，把这个问题推到了台前。Mythos 的案例先引发震动。Anthropic 通过 Project Glasswing 向少数机构开放 Claude Mythos Preview，理由是用前沿AI帮助加固关键软件。该项目的首批合作方包括 Amazon Web Services、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、NVIDIA、Palo Alto Networks 等，并扩展到四十多个构建或维护关键软件基础设施（critical software infrastructure）的组织。Anthropic 称，Mythos Preview 已经发现数千个零日漏洞（zero-day vulnerabilities），并以受控研究预览（gated research preview）的方式提供。

但另一个事实同样重要：访问权并不是全球均等分配的。相关报道显示，Anthropic 最初列出的合作伙伴全部来自美国，英国是美国之外少数获得访问的国家；欧盟、德国等监管机构只能通过会谈、询问和有限信息来评估影响。Mythos 因此不只是一个技术事件，也成为一个地缘政治事件。它使许多国家第一次清楚看到：前沿AI能力一旦越过某个门槛，就不再像普通软件产品，而更像一种战略能力。

紧接着，OpenAI 推出 GPT-5.4-Cyber。OpenAI 的路径不同。它不是完全扣住模型，而是通过 Trusted Access for Cyber，简称 TAC，建立分层访问（tiered access）机制。OpenAI 称，GPT-5.4-Cyber 是基于 GPT-5.4 的网络安全特化版本，面向合法防御工作降低拒绝边界（lower refusal boundary），支持更高级的防御流程，包括二进制逆向工程（binary reverse engineering）。由于这一版本更加 permissive，OpenAI 采取有限、迭代部署（limited, iterative deployment），先提供给经过审查的安全厂商、组织和研究人员。

据 Axios 报道，OpenAI 已经向美国联邦机构、州政府和五眼联盟（Five Eyes）成员介绍 GPT-5.4-Cyber，并在华盛顿向约五十名联邦网络防御人员演示其能力。OpenAI 采取双轨策略：一条轨道是带有强安全措施、较广泛可用的版本；另一条轨道是更具网络 permissive 特征的版本，通过 TAC 提供给经过验证的防御者。 Reuters 后续转述称，OpenAI 将 GPT-5.4-Cyber 描述为专为防御性网络安全工作微调的最新旗舰模型变体，并确认其初期以有限方式提供给经过审查的安全供应商、组织和研究人员。

这两个案例路径不同，但结论相同：超强AI网络能力（frontier AI cyber capabilities）的访问秩序正在形成。只是，这一秩序首先不是由国际条约、政府间机制或多边组织制定，而是由少数前沿AI公司、少数安全机构、少数盟友网络和少数大型企业共同塑造。

这正是问题所在。网络安全本来就是典型的两用领域（dual-use domain）。发现漏洞（vulnerability discovery）可以用于修补系统，也可以用于入侵系统。漏洞验证（vulnerability validation）可以帮助企业确认风险，也可以帮助攻击者筛选目标。漏洞利用（exploit development）可以服务红队测试（red-teaming），也可以服务恶意攻击。恶意软件逆向（malware reverse engineering）可以帮助防御者理解攻击链，也可能帮助攻击者改进绕过手段。攻击面分析（attack surface analysis）可以保护银行、电网、水务系统和云服务，也可以使这些系统更容易被定位和打击。

因此，AI在网络安全中的两用性，不是“一个好工具可能被坏人拿去用”这么简单。更准确地说，防御与攻击共用同一条能力链。模型越能读懂复杂代码，越能发现隐藏错误；越能自动推理多步骤操作，越能构造复杂攻击路径；越能帮助开发者修补漏洞，越可能帮助攻击者找到尚未修补的入口。

Anthropic 在 Mythos 的技术说明中说得很直接：Mythos Preview 在测试中能够识别并利用主要操作系统和浏览器中的零日漏洞；同样的代码、推理和自主能力提升，使模型更擅长修补漏洞，也更擅长利用漏洞。这句话几乎可以作为整个问题的注脚。AI网络能力的风险，不来自某个孤立功能，而来自通用能力（general capability）在安全场景中的迁移。

OpenAI 的 TAC 申请页面也承认这一点：这些能力对网络防御者是强大的力量倍增器（force multiplier），但恶意攻击者也可能用类似工具扩大攻击规模和复杂度；其风险缓解方式是要求成员提供额外身份验证和专业用例信息。这说明，能力本身不能简单区分善恶。真正可区分的，只能是主体、授权、场景、监督和责任。

这就把问题从“模型能做什么”推进到“谁有资格让模型做什么”。

Anthropic 的路径，可以称为严控扩散。Mythos 不面向公众发布，只给部分关键软件维护者和机构提前使用，目的是让防御者先找到并修补问题。这一思路有合理性。若一个模型能够快速发现大量高危漏洞，无条件公开就可能压垮现有补丁节奏。银行、医院、电力系统、政府系统、浏览器和云基础设施，无法在一夜之间完成加固。先把能力交给能够修补底层系统的机构，是一种风险压低策略。

但严控扩散会产生另一个问题：谁被认为有资格进入名单？谁被排除在外？若模型发现的是全球通用软件中的漏洞，为什么只有少数国家和少数企业能提前知道？那些使用同样软件、承受同样风险、却没有访问权的国家和机构，应当如何防御？

OpenAI 的路径，可以称为分层扩散。它承认防御者需要更强工具，也承认高能力工具不能像普通聊天模型一样开放。于是，它用身份认证、用例说明、访问层级、用途限制、日志和审查构成一套准入机制。OpenAI 还称，已经向美国 CAISI 和英国 AI Security Institute 提供 GPT-5.4-Cyber，以便开展网络能力和安全措施评估。

这一路径同样有合理性。现实世界中，很多关键基础设施运营者并没有充足安全团队。地方水务系统、小型医院、州政府机构、开源软件维护者，往往是最需要自动化安全能力的一方。若最强AI只由极少数科技巨头和国家安全机构使用，防御红利会集中化；若经过验证的防御者能够获得分层访问，至少有可能扩大安全收益。

但分层扩散也没有解决根本问题。谁来定义“可信防御者”（trusted defender）？企业的审查标准是否透明？被拒绝访问的机构是否有申诉机制？访问资格是否会沿着商业关系、联盟关系和国家安全关系分配？当模型帮助发现跨国漏洞时，情报共享（threat intelligence sharing）是服务全球防御，还是服务少数客户、少数盟友和少数监管机构？

所以，Mythos 与 GPT-5.4-Cyber 的差异，并不是“封锁”与“开放”的差异。它们更像两种公司主导的访问治理（access governance）。Anthropic 强调先控住危险能力，OpenAI 强调把能力分层交给防御者。两者都试图回答一个真实问题：超强AI网络能力不能简单公开。但两者也共同暴露一个制度空白：公共安全性质的访问规则，正在由企业合同、邀请名单和信任圈层来承担。

这不是对企业的简单指责。事实上，在国际制度缺位的情况下，前沿AI公司如果完全不设门槛，风险更大；如果完全不提供防御访问，风险也大。企业现在是在不完整的制度环境中被迫做准公共决策。但问题恰恰在这里：这些决策事实上具有公共安全后果，却缺少公共授权、外部审计、跨境协调和责任分配。

访问权正在变成新的地缘政治资源。过去，AI竞争主要表现为算力（compute）、数据（data）、芯片（chips）、人才（talent）和模型权重（model weights）的竞争。现在，还要加上一项：高风险能力的访问权（access to high-risk capabilities）。谁先获得模型，谁就可能先发现漏洞、先修补系统、先理解风险、先制定标准。谁没有访问权，谁就只能等待别人披露，或者在攻击发生后被动应对。

这对于关键基础设施尤其严峻。全球银行、电网、港口、医院、航空、通信和政府系统，并不是按AI公司的客户名单来运行的，也不是按五眼联盟边界来承受风险的。一个基础软件漏洞可能同时影响美国银行、欧洲能源企业、亚洲医院、非洲通信网络和拉美公共部门。可访问权却可能首先沿着美国公司、英美安全机构、既有情报联盟和大型商业客户分配。这种不对称，会把技术优势转化为防御优势，也可能转化为情报优势和规则优势。

更冷峻的是，风险不会等待治理完善。Anthropic 预计类似网络能力可能在不长时间内扩散。OpenAI 也明确把自身做法建立在一个判断上：未来更强模型会不断出现，防御者必须随着能力提升同步获得工具。也就是说，能力扩散不是是否发生的问题，而是如何发生、由谁管理、以什么条件发生的问题。

现有国际AI治理已经意识到前沿AI风险，但还没有建立能力访问制度。

2023 年的《布莱切利宣言》（Bletchley Declaration）已经承认，前沿AI可能带来故意滥用和控制失效等重大风险，尤其涉及网络安全（cybersecurity）和生物技术等领域。 2024 年首尔AI峰会的前沿AI安全承诺（Frontier AI Safety Commitments）要求企业说明风险缓解措施、设定风险阈值，并在风险无法降到阈值以下时停止开发或部署。欧盟《人工智能法》（EU AI Act）第55条则要求具有系统性风险的通用AI模型提供者进行模型评估、系统性风险识别和缓解、严重事件报告，并确保模型和物理基础设施具备足够网络安全保护。

这些安排重要，但它们主要回答的是开发者如何评估、控制和报告风险。它们还没有充分回答另一个问题：当一个模型已经具备高度两用的网络能力时，哪些外国政府、监管机构、国家计算机应急响应组织（CERT）、关键基础设施运营者、开源维护者和独立研究人员可以获得防御性访问？访问如何分层？谁来审核？谁能审计审核者？企业拒绝访问时是否需要说明理由？模型发现的漏洞如何跨境协调披露（coordinated vulnerability disclosure）？被模型能力影响但无法访问模型的国家如何保护自己？

这是AI治理的下一道硬题。安全承诺不是访问制度。红队测试不是分配机制。企业自律不是国际安排。没有这些制度，所谓“可信访问”很容易退化为“被少数主体信任者的访问”。

未来更可行的方向，不是简单要求全面开放，也不是要求永久封锁，而是建立国际化、分层、可审计的防御性访问机制。

Mythos 和 GPT-5.4-Cyber 不是终点。它们只是信号。今天是网络安全模型，明天可能是生物设计模型（bio-design model）、自动化科研模型（automated research model）、金融交易模型（financial trading model）或军事规划模型（military planning model）。只要模型能力足够强，访问权就会成为治理对象。

真正危险的局面，不是某家公司谨慎，也不是某家公司分层开放。真正危险的是，全球社会面对高风险AI能力时，只有公司规则，没有公共规则；只有盟友通道，没有国际通道；只有安全承诺，没有访问安排；只有少数主体先知道、先测试、先修补，其他人只能等待。

从 Mythos 到 GPT-5.4-Cyber，一个新的事实已经出现：前沿AI不再只是被发布、购买和使用的产品。它开始成为一种需要分配、审查、保护和问责的能力。AI治理的重点也必须随之改变。问题不再只是“模型是否安全”，而是“危险但必要的能力，应当由谁在什么条件下使用”。

这个秩序正在形成。现在的问题是，它会成为少数公司的准入名单，少数国家的安全特权，还是成为一种更广泛、更透明、更可问责的国际制度。答案还没有出现。但窗口正在变窄。

声明：本文来自网安寻路人，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

从Mythos到GPT-5.4-Cyber：超强AI网络能力的访问秩序正在形成

从青萍之末到惊涛骇浪：人工智能下的漏洞治理失衡与再平衡

AI智能体专门立法与现行法如何互补融合

《智能体数据处理安全要求》国标制定申请的初步思考