最近看了不少 AI 安全的文章，听了一些相关播客，也和朋友聊了几轮。我越来越觉得，很多时候大家在 AI 安全上的很多分歧，底层其实是对 AI 本身的认知差异。但讨论开始时大家又很少先交代这部分前提，每个人都带着自己默认的 AI 观进入对话，聊到后面就容易发现，大家说的好像是同一个问题，心里想的却不是同一种 AI。

最明显的是对 AI 发展速度的判断。我们可以把这个问题想成一条光谱，一个极端是，如果你认为 AGI 甚至 ASI 今年底就能实现，那你现在应该什么都别做了，去休假，去歇着，工作上的困扰、公司的难题、产品的瓶颈，等到年底直接抛给 ASI 就好了。当然，到了那个时候，人未来生活的意义可能也只能向内求了。另一个极端是，如果你认为 AI 今天就撞墙了，能力被三体文明锁死在当前水平，那你现在应该抓紧去创业。因为今天水平的 AI 已经足够颠覆很多行业，而且能力停滞以后，也不用担心自己投入三个月做出来的东西，转头就被一个新模型重置。

现实里，大家的看法肯定都在这两个极端之间。有人认为快一些，有人认为慢一些；有人认为现有路线还能继续推进很远，有人认为很快要换技术范式。这里没有必要也很难争出输赢，但知道自己站在光谱的哪里，也知道对面的人站在哪里，非常重要。否则讨论很容易跑偏。比如最近 Anthropic 围绕 Claude Mythos Preview 模型做了很多安全能力展示，我们当然可以讨论 Mythos 有没有 Anthropic 宣传的那么厉害，但这并不是关键问题。关键的是，你认为这种能力会不会出现？如果会出现，它是已经出现、几个月后出现，还是几年后出现？

所以我想聊聊自己对 AI 的一些基本看法。这不是完整的技术判断，也不是对未来的预测清单，更像是我现在进入 AI 安全讨论时带着的几个底层前提。未来回过头看，它可能对，但更可能不对，无论如何讨论总得有个基础。

LLM 走不到 AGI

我不认为基于 Transformer 架构的大语言模型会直接走到 AGI。

LLM 已经是非常重要的技术突破，而且它的影响还远没有结束。但从原理上看，LLM 是在多维向量空间里学习和操作表示。它可以把文字、代码、图像、语音，以及越来越多形式的信息统一到某种表示系统里，再在这个系统内部完成理解、推理、生成和规划。这个能力很强，但纯粹表示出来的理性世界，能不能充分代表真实世界，我觉得要打一个大问号。

真实世界里有大量能力，未必是从语言和概念里长出来的。鹰对重力、风向、角度和速度的处理远超人类，但它不懂数学，也不懂文字。刚出生的小马几个小时后就能站起来，这里面包含了漫长进化写进 DNA “权重”里的能力。人类后来学会数学、语文、哲学和各种抽象概念，这些东西很适合被语言和符号表达，也就很适合被 LLM 学习。但身体和物理世界里的很多能力，并不是靠读完互联网就能自然长出来的。

当然，未来也许语言和表示可以更完整地表达物理世界。模型可以通过视频、传感器、机器人反馈和仿真环境，逐步形成更丰富的世界模型。很多新公司和研究者也正在往 world model、空间智能、具身智能这些方向探索，包括李飞飞的 World Labs 和杨立昆的 AMI Labs 等一众 Neolabs。我不知道哪条路线可以达到 AGI，但我很怀疑 LLM 可以做到。

但比特世界会被 LLM 处理得很好

技术范式突破无法预测，它可能十年都不来，也可能下个月就出现。那在现有的 LLM 架构下，智能可以被推进到什么程度，天花板又在哪里？

我现在更愿意把 atom 和 bit 分开看。物理世界，也就是 atom 的部分，确实不好说。机器要进入真实环境，就会遇到视觉、触觉、力反馈、空间关系和不可控扰动。它要和物体、身体、材料、环境打交道，很多能力并不只是读更多文本就能长出来。机器人能不能像人一样可靠地在真实世界里行动，什么时候可以大规模进入家庭、工厂和城市空间，我现在没有很强判断。

但 bit 的部分，我的判断要明确得多。互联网世界本来就是由表示构成的。网页、文档、代码和日志，配置、工单、API 和数据库字段，本质上都是可以被读取、转换、生成和调用的对象。只要一个任务主要发生在这些对象之间，AI 就会不断进入它的核心流程。它未必一次性把所有工作都做完，但它会先接管一部分，再通过工具调用、工作流和 Agent 把更多环节连起来。

这里有一个很有意思的错位：很多人觉得难的东西，AI 觉得相对容易；很多人觉得容易的东西，AI 反而很难。理解复杂概念、写代码、做逻辑推理和总结资料，这些在人的教育体系里属于高阶能力，但它们很大程度上发生在表示世界里。只要输入、过程和输出可以被足够好地表达，模型就有机会不断逼近，甚至超过大部分人类水平。

相反，人觉得很自然的事情，模型和机器人并不一定做得好。随便放一罐易拉罐可乐在桌子上，让机器人自己识别、拿起、打开、避免弄洒，这个问题在真实物理环境里仍然很难。它涉及一堆人在生活里根本不会意识到的隐性知识。人类觉得简单，是因为这些能力背后有身体和进化的长期积累。

这个错位对产业判断很重要。AI 不会平均地替代所有人类能力，它会先冲进那些已经高度表示化的领域。代码、文档、合同、客服、财务分析、知识管理、搜索和数据处理，这些都在它的主战场里。网络安全也在其中。漏洞描述、PoC、流量、日志、配置和告警，大量安全工作本来就发生在数字系统和文本化对象中。只要这些对象能被模型读懂、关联和操作，AI 就会持续推进。

所以我对 bit 世界的判断比较激进：互联网上绝大多数可被表达、可被调用、可被验证的任务，基本都会被 AI 处理掉。它不一定意味着每个岗位都会消失，也不意味着每家公司都会被淘汰，但这些工作的成本结构、交付方式和竞争边界都会变。物理世界还要等机器人、传感器、执行器和世界模型继续进步；数字世界已经在 AI 的射程里了。

更重要的商业问题是扩散速度

讨论最先进模型的能力，更多是技术问题。到了商业和社会层面，更重要的是扩散速度。

做科学研究、做前沿漏洞挖掘、做复杂攻击链分析，永远都需要人类手头最先进的模型。但总结会议纪要，DeepSeek R1 级别的模型可能就够了，V4 都不需要，十年后可能也还是不需要，到那个时候，能完成这件事的小模型也许已经可以跑在手表里。模型能力继续上升，并不意味着所有任务都永远需要领先模型。恰恰相反，对大量具体任务来说，一旦模型能力跨过可用阈值，竞争重点就会转到成本、速度、稳定性、集成和体验。

所有任务都会经历同一条曲线：AI 干不了这个；AI 还是干不了这个；AI 好像可以做了，但有时候还不行；大部分时候 AI 都可以做了；AI 做得很好了；最新模型做这个有点大材小用；领先模型太贵了，这个任务我们用旧模型吧。

Source: 博客文章——Google Gemini 转绘，Tomas Pueyo

这条曲线会反复出现。每一个任务都有自己的临界点。有的任务很早跨过去，比如会议纪要、翻译、基础代码生成。有的任务会慢一些，比如复杂项目管理、专业研究、跨系统 Agent 执行。还有一些任务会很晚，尤其是涉及真实世界、强责任边界和不可逆动作的任务。产业变化的速度，不取决于“AI 总体有多强”这个抽象问题，而取决于一个个具体任务什么时候跨过够用线。

够用线一旦被跨过，市场结构就会变。领先模型还在继续变强，但客户不会为每个任务都付领先模型的钱。一个模型能不能在企业里真正用起来，往往还取决于它是否便宜，能不能私有化或本地化，延迟是否可接受，权限和日志能不能接入，输出是否稳定，出了问题能不能追溯。模型能力越往上走，这些部署和运营问题反而越重要。

回到网络安全，进攻会一直追前沿，防守要逐渐去分层

网络安全是一个很适合观察 AI 扩散的行业，因为它本来就是对抗性的。

不同安全问题对应不同扩散阶段。前沿模型刚出现某种能力时，最重要的风险可能集中在少数实验室、少数合作伙伴和少数高能力攻击者手里。等能力下沉到开源模型、旧模型、小模型、本地模型，风险就会变成广泛扩散的问题。前者更像前沿能力治理，后者更像基础设施治理。两个问题都重要，但应对方式完全不同。

在攻击侧，最先进模型始终能带来对抗优势，攻击者有动力一直追前沿。复杂漏洞利用、多漏洞链式组合、系统特殊状态的把握、长程攻击路径规划，这些任务都会受益于前沿模型的代码、推理和工具使用能力。Anthropic 对 Mythos Preview 的叙述之所以引起关注，也正因为它把“模型能发现漏洞”和“模型能把漏洞变成可用 exploit”之间的距离大幅缩短了。如果这类能力继续扩散，安全行业面对的会是攻击者研究、试错和武器化速度的整体上升。

但在防守侧，很多任务并不需要追逐最前沿模型。很多场景一旦被良好定义，够用模型就能产生价值。告警初步分级、资产和数据分类、配置检查、规则推荐、报告生成、低复杂度日志关联，这些任务的重点未必是模型有多聪明，重点在于能不能嵌进流程，能不能稳定运行，能不能降低人力成本，能不能被审计和复核。

这会带来一个分层结构。最前沿的安全能力，会集中在漏洞研究、攻防推演、复杂代码理解和自动化利用这些地方；大量日常安全运营，会逐步被已经成熟、成本更低的模型覆盖。攻击侧为了优势追前沿，防守侧则要同时管理前沿能力和普及能力。前沿模型可以帮助发现最难的问题，旧模型和小模型会进入更多现场，把安全工作中的重复劳动吃掉。

所以讨论 AI 安全时，我不太愿意只问“AI 会不会带来安全风险”。这个问题太大了。更好的问法可能是：我们讨论的是哪一种 AI？是实验室里尚未公开的前沿模型，还是企业已经部署的通用模型？是能自主调用工具的 Agent，还是只负责分类和总结的小模型？是攻击者用于漏洞利用的模型，还是防守方用于告警分级的模型？这些对象不一样，安全问题就不一样。

如果一个人认为 AGI 很快就会出现，他最关心的可能是模型失控、对齐失败、战略稳定和人类整体控制权。如果一个人认为 LLM 很快到顶，他可能更关心眼前的内容安全、数据泄露、自动化攻击和产业落地风险。如果一个人像我这样，怀疑 LLM 能直接走到 AGI，但又相信它会吃掉大量 bit 世界的任务，那么我会特别关注数字世界里的能力扩散：代码、安全、知识工作、企业流程和 Agent 权限。

写在最后

我现在对 AI 的基本判断，大概可以概括成三句话。

第一，现有 LLM 路线非常强，但我不认为它会自然走到 AGI。它在表示世界里的能力会继续提高，但真实世界、身体、物理反馈和长期自主行动，可能需要新的技术范式。第二，即使没有 AGI，LLM 也已经足够改变大量数字行业。第三，商业和社会影响不只取决于最强模型能做什么，更取决于能力什么时候扩散到具体任务里，什么时候变得够用、便宜、稳定、可集成。

带着这三个判断再看 AI 安全，我会更关注一个问题：AI 能力会在哪些数字任务上快速跨过够用线，随后以什么速度扩散到更多人手里。网络安全是最典型的场景之一。因为安全工作本来就大量依赖代码、文本、日志和系统知识，也因为攻防双方都会主动寻找能力差。只要模型在这些表示型任务上继续进步，安全行业就不可能只是把 AI 当成一个新功能模块。

这也是为什么我觉得，聊 AI 安全之前，先要说清楚自己相信什么样的 AI。你相信 AGI 很快到来，和你相信 LLM 已经撞墙，会得到完全不同的风险地图。你相信前沿模型最重要，和你相信旧模型的扩散更重要，也会得到完全不同的产品和治理重点。很多讨论聊不明白，不一定是某一方逻辑差，而是大家没有先把这些前提摊开和对称清楚。

声明：本文来自表图，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

讨论AI安全之前，先说清楚你相信什么样的AI