在数据安全挑战日益严峻的背景下,Meta近日发布了一款名为“Automated Sensitive Document Classification”的开源AI工具,旨在帮助企业自动识别敏感文档并加以分类标记,从而提升整体数据防护水平。这一工具最初是Meta为满足自身内部安全需求所打造,如今正式对外开放,意在支持更多组织解决类似的敏感信息泄露难题。

LLM驱动的敏感信息识别系统

与传统基于规则或正则表达式(RegEx)的分类方式不同,Meta此次采用了大语言模型(LLM)技术作为核心引擎,以实现更高的准确率和更强的扩展性。Meta安全工程师Robin Franklin指出:“对于我们这种处理大量多样化数据的组织来说,RegEx远远无法胜任精准识别任务。我们需要的是一种既可扩展又可审计的解决方案。”

该系统不仅能识别文档中的敏感内容,还能自动对文档进行加标签,配合Google DriveAPI直接应用于Google Docs、Sheets、Slides等格式文件。同时,它也支持Apache Tika解析文档文本,并将分类结果、MD5校验值与处理状态记录在SQLi数据库中,输出CSV报告,以便团队审计与分析。

自动化数据标签管理,减轻人工负担

传统的数据分类与标签系统严重依赖人工流程,不仅效率低下,还存在误判和漏标的风险。Meta的这一系统实现了端到端的自动识别与标签生成,显著降低了人为干预成本。“这使得我们的安全与隐私团队能更高效地发现敏感数据被误用或外泄的风险事件,从而大幅提升对数据篡改与泄露的侦测能力。”Franklin表示。

该工具还支持定制化的多级分类策略,可根据企业自身的安全政策灵活设定敏感等级。Meta团队还提供了参考实现,帮助开发者快速上手,并通过Docker容器或Python模块灵活部署于本地或云端环境。

开源共享,推动行业标准化

Meta选择将该工具以开源形式发布在GitHub,正是希望打破各家企业数据防护“各自为战”的困境。“三年前我们开始这个项目时,外界几乎没有可参考的敏感文档分类框架。今天我们分享的内容,原本能极大加速我们的开发进程。”Franklin坦言,“现在我们希望这些积累可以为更多组织提供帮助。”

当前版本已原生支持Llama模型和Google Drive集成。未来,Meta计划支持更多文档共享平台,如Office365的敏感标签机制,以及更广泛的部署方案,包括Ollama等本地大模型推理平台。Meta表示,随着开源社区的反馈不断汇集,将优先考虑适配更多企业级使用场景。

GoUpSec认为,Meta这一举措不仅展示了Meta在企业数据治理与AI安全融合方面的探索成果,也为全球企业提供了一种更智能、自动化的数据防泄漏解决方案,或将推动文档安全标签标准在行业内的进一步普及与演进。

Meta的Automated Sensitive Document Classification工具现已免费开放,源代码与文档可通过以下链接获取:

https://github.com/facebook/automated-sensitive-document-classification

声明:本文来自GoUpSec,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。