OpenAI开源隐私过滤模型，敏感信息一键脱敏

OpenAI 发布开源权重的 Privacy Filter 模型，一款专为敏感信息检测与脱敏设计的模型。

传统敏感信息检测难以适配 AI 时代需求

AI 的规模化落地，带来了海量文本数据的处理需求。

从大模型训练语料清洗、企业日志脱敏，到文档存储与检索前的敏感信息处理，

都对个人信息检测提出了更高要求。

传统敏感信息检测多依赖正则与固定格式匹配，仅能覆盖手机号、邮箱等标准字段。

对依赖上下文判断的非标准化敏感信息识别能力不足。

举个例子，文本中的名字正则如何检测？

但是AI可以。

GPT-OSS同源架构

Privacy Filter 基于 GPT-OSS 同源的预训练 checkpoint 改造而来.OpenAI将该checkpoint转换为基于隐私标签分类体系的双向token分类器，并进行后训练。

模型总参数量15 亿，活跃参数量仅5000 万.

这个参数可以本地运行，实现敏感数据 “不出设备” 即可完成脱敏。

同时模型支持128K的上下文窗口。

它能检测什么

Privacy Filter 覆盖了常见的敏感数据类型：

姓名和身份信息
地址和地理位置
邮箱和电话号码
URL 和日期
银行账号、信用卡号、ID号
API 密钥和密码

特别是 API 密钥和密码的检测，对开发者来说简直是救命神器。

多少公司因为代码里不小心提交了密钥，导致整个系统被黑客入侵。

传统的密钥检测严重依赖正则。

根据WIZ的研究，此类方法只能捕获约 60% 的潜在泄露，且误报率较高。

现在有了它，这种低级错误将成为历史。

Privacy Filter模型采用 Apache 2.0 开源许可，许可宽泛，降低了隐私保护能力的落地门槛。

实测表现

在性能测试中，Privacy Filter 展现了行业领先的检测能力。

在 PII-Masking-300k 基准测试中，模型基线版本实现了 96% 的 token 级 F1 值，其中精准率 94%，召回率 98%。

在领域适配能力上，模型的微调效率表现亮眼。

在法律与医疗场景的 SPY 数据集测试中，仅使用 10% 的训练数据进行微调，模型的 F1 值即可从原生的 54% 提升至 96%，快速适配行业敏感信息识别需求。

此外，模型在多语言与对抗场景中也有稳定表现，中文场景下 F1 值可达 91.7%。

指标计算方式：

召回率 = TP / (TP + FN)
精确率 = TP / (TP + FP)
F1 = 2PR / (P + R)

不是万能，但足够好用

OpenAI 在文档中明确，

Privacy Filter 是一款数据最小化的辅助工具，

而非匿名化解决方案、合规认证凭证，

更不能替代高风险场景下的人工合规审核。

模型的能力受限于训练的标签体系，不同企业的合规要求可能需要额外的微调与校准.

在非英语文本、小众命名规则的场景下，模型性能可能出现下降。

不过小编测试下来对于中文支持还可以，是否自谦看各位自行测试了。

同时也存在罕见标识符漏检、上下文不足时过度脱敏等潜在问题。

在医疗等高敏感场景，OpenAI建议仍需保留人工审核环节与领域专属的适配优化。

在线demo：https://huggingface.co/spaces/openai/privacy-filter

参考资料：

Introducing OpenAI Privacy Filter https://openai.com/index/introducing-openai-privacy-filter/

https://huggingface.co/openai/privacy-filter

Model Card for OpenAI Privacy Filter https://cdn.openai.com/pdf/c66281ed-b638-456a-8ce1-97e9f5264a90/OpenAI-Privacy-Filter-Model-Card.pdf

https://github.com/openai/privacy-filter

声明：本文来自玄月调查小组，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

OpenAI开源隐私过滤模型，敏感信息一键脱敏

传统敏感信息检测难以适配 AI 时代需求

GPT-OSS同源架构

它能检测什么

实测表现

不是万能，但足够好用

即时软件时代的网络安全

DeepSeek-V4技术报告深读：百万上下文开源模型，正在重构Agent安全边界

大模型治理人工智能谣言的风险挑战研究