DeepSeek-V4 Preview 正式上线并开源。
官方发布信息显示,DeepSeek-V4-Pro 为 1.6T 总参数、49B 激活参数;DeepSeek-V4-Flash 为 284B 总参数、13B 激活参数;两个模型都支持 1M 上下文,并支持 Thinking / Non-Thinking 双模式。

https://api-docs.deepseek.com/news/news260424
如果只看参数和榜单,这可能是一篇模型能力分析。
但从 AI 安全角度看,DeepSeek-V4 更值得关注的是另一件事:
百万上下文正在变得更便宜、更开放、更容易部署。
这会改变 Agent 应用的工程形态,也会改变安全边界。

DeepSeek-V4 把百万上下文做成常态能力
DeepSeek-V4 技术报告的摘要写得很清楚:DeepSeek-V4 系列包括两个 MoE 模型,V4-Pro 1.6T 总参数、49B 激活参数,V4-Flash 284B 总参数、13B 激活参数,都支持一百万 token 上下文。模型在架构上引入 CSA/HCA 混合注意力、mHC 和 Muon 优化器,并在超过 32T token 上进行预训练。
真正关键的是效率。
报告披露,在 1M token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 只需要 27% 的单 token 推理 FLOPs 和 10% 的 KV cache;DeepSeek-V4-Flash 更进一步,只需要 10% 的单 token FLOPs 和 7% 的 KV cache。
这组数字的安全含义很直接。
过去,百万上下文更像一种高端能力展示。
现在,它开始变成可常态化使用的工程能力。
当百万上下文足够便宜,企业和开发者就会更自然地把完整材料塞进模型:
一个完整代码仓库。
一批合同和招投标文件。
一整套会议纪要。
一段很长的客服聊天记录。
一个项目的所有需求、设计、测试、日志。
一批网页、PDF、邮件、表格、知识库文档。
模型读得越多,价值越大。
模型读得越多,风险也越复杂。
因为风险不一定在用户当前问题里,可能藏在上下文的某个角落。
模型在“压缩地阅读世界”
DeepSeek-V4 的关键架构是 hybrid attention,也就是 CSA 和 HCA 的混合注意力。
技术报告解释,CSA 会沿序列维度压缩 KV cache,然后执行 DeepSeek Sparse Attention;HCA 则对 KV cache 做更激进的压缩,但保留 dense attention。
可以通俗理解为:
CSA 像是在超长上下文里先做压缩索引,再从压缩后的内容中挑重点看。
HCA 像是把上下文压得更狠,但保留整体可见性。
这样做是为了解决普通注意力在超长上下文下算不动、存不下的问题。报告还提到,DeepSeek-V4 采用混合存储格式,RoPE 维度用 BF16,其余维度用 FP8,FP4 也被用于极长上下文下的 attention 计算,压缩注意力和混合注意力共同降低 KV cache 和计算 FLOPs。
从安全角度看,这里有一个很重要的问题:
当模型通过压缩、稀疏选择、缓存复用来阅读百万上下文时,外部安全系统不能再假设“模型完整、均匀、透明地读了所有内容”。
攻击者可以把恶意指令藏在一份长文档的脚注里,藏在代码注释里,藏在网页不可见区域里,藏在邮件转发链的历史消息里,藏在表格备注里。
长上下文让模型拥有更强的信息整合能力,也让提示注入拥有更多藏身空间。

所以,长上下文安全不能只做最终输出审核。
更合理的方式是上下文前置治理:
进入模型前先做来源标注。
把用户指令和外部资料分开。
对不可信网页、邮件、文档做风险扫描。
识别隐藏指令、越权请求、数据外传诱导。
对高风险片段做隔离、降权、摘要化或人工复核。
模型输出前再做结果检测。
工具调用前再做动作确认。
长上下文会带来新的数据安全问题
DeepSeek-V4 的技术报告里有一节讲 KV cache 管理。
由于 CSA/HCA 混合注意力会产生多种类型、不同大小、不同更新规则的 KV cache,DeepSeek-V4 设计了定制化 KV cache 布局。报告还提到,在服务 DeepSeek-V4 时,会使用 on-disk KV cache storage 来复用 shared-prefix 请求,减少重复 prefill。
这对推理效率很重要。
但从安全角度看,缓存复用也会带来新的治理问题。
在企业应用里,长上下文常常包含敏感内容:
合同原文
客户数据
代码仓库
会议记录
日志片段
员工信息
业务策略
如果系统为了性能把前缀 KV cache 写到磁盘,并在多个请求之间复用,就必须回答几个安全问题:
缓存里有没有敏感信息的等价表达?
不同租户之间是否完全隔离?
缓存命中是否可能跨用户、跨组织、跨权限域?
缓存生命周期多长?
缓存是否加密?
缓存删除是否彻底?
缓存是否进入审计范围?
这类问题在短上下文时代没那么显眼。
到了百万上下文时代,缓存本身就成了重要资产。
未来企业部署长上下文模型,不能只问“模型会不会泄露数据”,还要问“推理系统如何管理长上下文缓存”。
Agent 能力是被专门训练出来的
DeepSeek-V4 不是简单把上下文窗口拉长。
技术报告里明确提到,后训练采用两阶段范式:先分别培养数学、编码、Agent、指令遵循等领域专家模型;基础模型先做 SFT,再用 GRPO 做强化学习;最后通过 on-policy distillation,把多个专家能力整合到统一模型中。
这说明 Agent 能力不是发布后顺手测一下,而是在训练阶段被专门强化。
这点很重要。
因为一旦模型具备更强的 Agent 能力,它会更适合做复杂任务:
理解目标
拆分步骤
调用工具
处理工具返回结果
保留任务状态
持续修正计划
跨文档、跨代码、跨环境推进任务
而这些能力一旦开源、低成本、长上下文,就会迅速进入各种本地 Agent 框架。
这对安全行业意味着:
以后需要评估的对象,不只是 DeepSeek-V4 这个模型本体。
还要评估下游开发者用它搭出来的 Agent 系统。
模型有没有内容安全能力是一层,Agent 有没有权限隔离、沙箱、日志、确认、回滚,是另一层。
真正的风险往往出现在第二层。
工具调用格式的变化也会影响 Agent 安全
DeepSeek-V4 技术报告还提到一个细节:它引入了新的工具调用 schema,使用特殊的 |DSML| token 和基于 XML 的工具调用格式。报告称,这种 XML 格式能缓解 escaping failures,减少工具调用错误,提供更稳健的模型-工具交互接口。
这看似是工程细节,其实和安全有关。
工具调用接口越稳定,Agent 越容易可靠执行复杂动作。
但工具调用接口越可靠,错误动作的执行概率也越需要被控制。
过去模型工具调用不稳定,有时反而限制了风险传播。
未来工具调用越来越规范,安全问题会从“模型能不能正确调用工具”,转向“模型有没有资格调用这个工具”。
这也是 Agent 安全的关键变化。
工具调用安全不能只校验格式,还要校验:
这个工具是否允许当前用户调用?
这个参数是否包含敏感信息?
这个动作是否会改变外部状态?
这个目标地址是否可信?
这个命令是否破坏性?
这个调用结果是否会被带入下一轮上下文?
这就是从 tool schema 走向 tool policy。

长任务状态管理能力增强,也会放大持续性风险
DeepSeek-V4 技术报告里有一个很值得关注的设计:Interleaved Thinking。
报告提到,在工具调用场景中,DeepSeek-V4 会保留完整 reasoning history,包括跨用户消息边界的历史推理内容,从而让模型在长周期 Agent 任务中保持连续、累积的问题求解状态。一般对话场景则保留原策略,新用户消息到来后丢弃之前的推理内容,以保持上下文简洁。
这是一种很典型的 Agent 状态管理优化。
它的好处很明显:模型不用每次工具调用后重新理解任务,长期任务更连贯,复杂调试、搜索、代码修改、数据分析更容易推进。
但安全上也要注意:长状态会保留更多历史污染。
如果早期上下文里混入了恶意指令,后续任务可能持续受影响。
如果模型误解了用户目标,错误计划可能在多轮工具调用中被不断强化。
如果敏感信息进入推理状态,它可能在后续步骤中被间接带出。
所以,Agent 状态管理本身也要纳入安全设计。
未来不能只清洗用户输入,还要清洗 Agent 的任务记忆、工具结果、推理摘要和中间状态。
DSec 沙箱
DeepSeek-V4 技术报告里,最值得 AI 安全从业者关注的一节,是 Sandbox Infrastructure for Agentic AI。
报告说,为了满足 Agentic AI 在后训练和评估中的多样化执行需求,DeepSeek 构建了生产级沙箱平台 DeepSeek Elastic Compute,也就是 DSec。DSec 由三个 Rust 组件组成:API gateway、per-host agent 和 cluster monitor,通过自定义 RPC 协议互联,并运行在 3FS 分布式文件系统之上;生产环境中,单个 DSec 集群可以管理数十万个并发沙箱实例。
DSec 提供四类执行底座:
Function Call,用于轻量无状态函数调用。
Container,兼容 Docker。
microVM,基于 Firecracker,提供 VM 级隔离,适合安全敏感场景。
fullVM,基于 QEMU,支持任意 guest OS。

这部分非常重要。
它说明 DeepSeek 在训练和评估 Agent 时,已经不是让模型“纸上谈兵”,而是让模型进入真实可执行环境。
而一旦模型进入可执行环境,沙箱就不是附加能力,而是基础设施。
没有沙箱,Agent 就像一个拿到系统权限的实习生。
它可能能力很强,也可能误删、误改、误执行、误访问。
沙箱的价值是把 Agent 的行动范围限制在可控环境里:
文件系统隔离
网络隔离
进程隔离
资源限制
环境快照
任务重放
失败恢复
权限分层
企业部署 Agent,也应该按这个思路做。
不要直接让 Agent 连生产环境
不要直接让 Agent 拿真实凭证
不要直接让 Agent 操作高权限系统
先放到沙箱里,让它生成计划、执行测试、输出 diff、给出证据,再决定是否进入真实环境。
轨迹日志
DSec 还有一个设计非常值得单独拎出来讲:trajectory log。
报告提到,DSec 会为每个沙箱维护全局有序的轨迹日志,持久记录每一次命令调用及其结果。这个轨迹日志有三个作用:任务恢复、细粒度溯源、确定性重放。
这几乎就是 Agent 安全审计的标准答案。
未来 Agent 产品一定要能回答几个问题:
它执行过哪些命令?
它读过哪些文件?
它写过哪些文件?
它调用过哪些接口?
它访问过哪些网页?
它基于哪些工具结果做出下一步判断?
它什么时候偏离了用户目标?
它的错误能不能复现?
出了问题能不能回滚?
没有轨迹日志,Agent 安全事故很难定位。
有轨迹日志,才能判断问题来自哪里:
是模型误解?
是上下文污染?
是工具返回错误?
是权限配置过宽?
是用户指令模糊?
是外部文档提示注入?
这也是为什么 Agent 安全不能只做输入输出检测。输入输出只是任务链首尾,真正的问题可能发生在中间几十次工具调用里。
DeepSeek-V4 的 Agent 评测,已经接近真实研发任务
DeepSeek-V4 技术报告中的 Agent benchmark 很丰富,包括 Terminal Bench 2.0、SWE Verified、SWE Pro、SWE Multilingual、BrowseComp、HLE with tools、MCPAtlas Public、Toolathlon 等。
DeepSeek-V4-Pro-Max 在 Terminal Bench 2.0 上达到 67.9%,SWE Verified 达到 80.6%,SWE Pro 达到 55.4%,MCPAtlas Public 达到 73.6%,Toolathlon 达到 51.8%。
更值得关注的是内部 R&D Coding Benchmark。
报告说,DeepSeek 从 50 多名内部工程师那里收集了约 200 个真实研发任务,覆盖功能开发、bug 修复、重构、诊断,技术栈包括 PyTorch、CUDA、Rust、C++。
经过筛选后,保留 30 个任务作为评测集。DeepSeek-V4-Pro-Max 在该 benchmark 上通过率为 67%,高于 Claude Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%。
这说明 DeepSeek-V4 的 Agent 能力已经进入真实研发任务维度。
但真实研发任务带来的安全问题也更具体:
模型会读代码
模型会改代码
模型会跑测试
模型会解释日志
模型会修改配置
模型会处理依赖
模型会访问构建环境
模型可能接触密钥、token、内部接口和测试数据
所以,企业如果用 DeepSeek-V4 做 Coding Agent,不能只看模型通过率,还要建立研发安全基线:
默认只读。
修改必须生成 diff。
敏感文件不可读。
密钥文件不可访问。
外网访问受控。
命令执行分级。
提交前人工确认。
安全测试自动触发。
所有操作留痕。
这才是 Coding Agent 真正可落地的安全形态。
开源和低成本会让安全责任向下游扩散
DeepSeek-V4 的开源属性很关键。
闭源模型的安全治理,主要由模型平台承担一大部分责任:账号、风控、限流、内容策略、日志审计、能力开放分级。
开源模型不一样。
一旦模型权重开放,本地部署、私有化部署、行业部署、二次微调都会快速出现。
这会带来好处:
企业可以本地化使用、数据可以不出域、开发者可以深度适配、行业场景可以低成本落地。
但也会带来新的治理难题:
模型方无法控制所有下游用法、不同部署方的安全水平差异很大、同一个模型接入不同工具后风险完全不同、私有化部署容易被误解成天然安全。
但“数据不出域”只解决了数据流向的一部分问题。
模型在域内误操作、越权读取、错误调用工具、泄露内部信息,同样是安全事故。
所以,开源模型时代的 AI 安全,会更多依赖下游应用方、集成商、行业客户和安全产品。

护栏要变成上下文与执行网关
DeepSeek-V4 带来的安全启发,可以概括成一句话:
长上下文模型会让风险从 query 迁移到 context;Agent 能力会让风险从 response 迁移到 action。
所以,护栏产品也要升级。
传统护栏像文本审核器。
未来护栏更应该像上下文与执行网关。
它至少要覆盖六件事。
第一,长上下文切片检测。
把百万上下文拆成文档、段落、代码块、表格、网页、邮件链,分别识别风险。
第二,来源可信度标注。
用户输入、系统指令、外部网页、邮件、知识库、代码注释,可信级别不同,不能混在一起处理。
第三,指令和数据隔离。
外部文档里的内容默认是数据,不应该被模型当成高优先级指令。
第四,工具调用前检查。
每次调用终端、浏览器、数据库、代码仓库、邮件系统前,先判断动作风险。
第五,沙箱执行和回放。
高风险任务先在隔离环境中执行,保存轨迹,允许复现和回滚。
第六,部署后持续评测。
开源模型上线后,要持续用真实业务样本、提示注入样本、工具误用样本做评测。
这套能力,已经超出传统内容安全 API 的范围。
它更接近 Agent Security Gateway。
写在最后
DeepSeek-V4 的发布,不只是国产模型能力更新。
它真正值得关注的地方,是把几个趋势叠在了一起:
百万上下文
低成本推理
开源权重
Agent 能力强化
工具调用优化
沙箱基础设施
轨迹日志和确定性回放
这些能力组合起来,会让更多团队低成本搭建本地 Agent。
这对产业是好事,但安全问题也会从模型厂商平台,扩散到每一个部署者、集成者、应用开发者和行业客户。
GPT-5.5 展示的是前沿闭源模型如何做分层安全治理。
DeepSeek-V4 展示的是开源长上下文模型如何把 Agent 能力推向更广泛的工程落地。
两件事合在一起看,AI 安全的方向已经很清楚:
未来要保护的,不只是模型输出。
还包括上下文、缓存、工具、权限、沙箱、轨迹、状态和整个任务执行过程。
声明:本文来自模安局,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。