OpenAI 发布开源权重的 Privacy Filter 模型,一款专为敏感信息检测与脱敏设计的模型。

传统敏感信息检测难以适配 AI 时代需求
AI 的规模化落地,带来了海量文本数据的处理需求。
从大模型训练语料清洗、企业日志脱敏,到文档存储与检索前的敏感信息处理,
都对个人信息检测提出了更高要求。
传统敏感信息检测多依赖正则与固定格式匹配,仅能覆盖手机号、邮箱等标准字段。
对依赖上下文判断的非标准化敏感信息识别能力不足。
举个例子,文本中的名字正则如何检测?
但是AI可以。

GPT-OSS同源架构
Privacy Filter 基于 GPT-OSS 同源的预训练 checkpoint 改造而来.OpenAI将该checkpoint转换为基于隐私标签分类体系的双向token分类器,并进行后训练。

模型总参数量15 亿,活跃参数量仅5000 万.
这个参数可以本地运行,实现敏感数据 “不出设备” 即可完成脱敏。
同时模型支持128K的上下文窗口。
它能检测什么
Privacy Filter 覆盖了常见的敏感数据类型:
姓名和身份信息
地址和地理位置
邮箱和电话号码
URL 和日期
银行账号、信用卡号、ID号
API 密钥和密码
特别是 API 密钥和密码的检测,对开发者来说简直是救命神器。
多少公司因为代码里不小心提交了密钥,导致整个系统被黑客入侵。
传统的密钥检测严重依赖正则。
根据WIZ的研究,此类方法只能捕获约 60% 的潜在泄露,且误报率较高。

现在有了它,这种低级错误将成为历史。
Privacy Filter模型采用 Apache 2.0 开源许可,许可宽泛,降低了隐私保护能力的落地门槛。
实测表现
在性能测试中,Privacy Filter 展现了行业领先的检测能力。
在 PII-Masking-300k 基准测试中,模型基线版本实现了 96% 的 token 级 F1 值,其中精准率 94%,召回率 98%。

在领域适配能力上,模型的微调效率表现亮眼。
在法律与医疗场景的 SPY 数据集测试中,仅使用 10% 的训练数据进行微调,模型的 F1 值即可从原生的 54% 提升至 96%,快速适配行业敏感信息识别需求。
此外,模型在多语言与对抗场景中也有稳定表现,中文场景下 F1 值可达 91.7%。
指标计算方式:
召回率 = TP / (TP + FN)
精确率 = TP / (TP + FP)
F1 = 2PR / (P + R)
不是万能,但足够好用
OpenAI 在文档中明确,
Privacy Filter 是一款数据最小化的辅助工具,
而非匿名化解决方案、合规认证凭证,
更不能替代高风险场景下的人工合规审核。
模型的能力受限于训练的标签体系,不同企业的合规要求可能需要额外的微调与校准.
在非英语文本、小众命名规则的场景下,模型性能可能出现下降。
不过小编测试下来对于中文支持还可以,是否自谦看各位自行测试了。

同时也存在罕见标识符漏检、上下文不足时过度脱敏等潜在问题。
在医疗等高敏感场景,OpenAI建议仍需保留人工审核环节与领域专属的适配优化。
在线demo:https://huggingface.co/spaces/openai/privacy-filter
参考资料:
Introducing OpenAI Privacy Filter https://openai.com/index/introducing-openai-privacy-filter/
https://huggingface.co/openai/privacy-filter
Model Card for OpenAI Privacy Filter https://cdn.openai.com/pdf/c66281ed-b638-456a-8ce1-97e9f5264a90/OpenAI-Privacy-Filter-Model-Card.pdf
https://github.com/openai/privacy-filter
声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。