来源:美国NIST官网

摘要:2024年11月,美国国家标准技术研究所(NIST)发布了AI 100-4报告《减少合成内容风险》(Reducing Risks Posed by Synthetic Content),该报告聚焦于应对生成式人工智能(GenAI)产生的合成内容(如图像、视频、文本)带来的风险,提出通过技术手段提升数字内容透明度的解决方案。该报告强调GenAI的双刃剑效应:虽推动创新,但也加剧虚假信息、欺诈、儿童性虐待材料(CSAM)和非自愿亲密图像(NCII)等危害。核心目标是通过追踪内容来源、检测合成内容及防止有害内容生成,增强数字生态系统的信任与安全,但需结合技术、标准、教育及政策多维度措施。

一、核心内容

(一)合成内容的危害与风险

1.主要风险类型

(1)虚假信息:深度伪造视频伪造政治人物言论、AI生成新闻误导公众决策。

(2)CSAM/NCII:生成工具降低制作门槛,导致真实儿童受害者的二次伤害和女性被恶意伪造私密影像。

(3)身份欺诈:语音克隆伪造亲属求助诈骗,AI换脸视频用于勒索或虚假身份认证。

(4)网络安全威胁:伪造生物特征(如人脸)绕过身份验证系统,或伪造企业高管指令进行资金欺诈。

2. 风险传播链条

(1)创建阶段:攻击者利用开源模型(如Stable Diffusion)生成有害内容,或通过微调模型规避安全限制。

(2)发布阶段:社交平台缺乏实时检测能力,导致有害内容快速扩散。

(3)消费阶段:公众难以辨别合成内容,引发社会信任危机(如“后真相时代”)。

3. 差异化应对

(1)高熵内容(如长文本、高分辨率图像):需结合多模态检测(水印+元数据+统计特征)。

(2)定向攻击(如针对特定个体的NCII):需快速溯源与平台联动删除机制。

(二)内容透明度技术方法

1. 来源追踪(Provenance Data Tracking)

(1)数字水印技术:

隐蔽水印实现:

图像:基于频域(DCT/DWT)的系数修改,或通过扩散模型初始噪声注入(如“树环水印”)。

文本:调整语言模型token概率分布(如“红绿列表”算法),或嵌入语法结构扰动(如句法树标记)。

音频:修改梅尔频谱图的高频成分或相位信息,人耳不可察觉。

技术权衡:

鲁棒性:水印需抵抗常见操作(JPEG压缩、重采样、裁剪),但可能牺牲容量(如仅能嵌入模型ID而非完整元数据)。

安全性:私有水印(如SynthID)依赖模型内部机制,但可能被逆向工程破解;公有水印易遭伪造攻击。

(2)元数据记录与验证:

C2PA标准:

链式签名:记录内容从生成到每次编辑的完整历史,每个操作者(相机、编辑软件)附加数字签名。

数据存储:元数据可嵌入文件(如JPEG XM段)或外链至去中心化存储(IPFS),依赖哈希索引防篡改。

挑战:

密钥管理:硬件签名模块(HSM)保护私钥,但消费级设备(如手机摄像头)难以普及。

跨平台兼容:社交媒体可能剥离元数据,需推动平台支持(如Meta承诺兼容C2PA)。

2. 合成内容检测(Detection)

(1)自动化检测技术:

多模态特征融合:

图像:检测生成模型的固有伪影(如扩散模型的棋盘格噪声、GAN的瞳孔不对称)。

文本:分析“困惑度”(perplexity)和“突发性”(burstiness),或利用LLM生成对比文本识别统计偏差。

音视频:检测嘴型-语音同步误差,或通过光流分析不自然运动轨迹。

对抗攻击应对:

动态更新:检测模型持续训练以覆盖新型生成器(如Sora视频检测需专用数据集)。

集成学习:组合多个弱分类器(如FreqNet+ResNet)提升鲁棒性。

人工辅助机制:

众包标注:平台用户标记可疑内容,结合专家审核(如Twitter社区注释)。

可解释AI:检测工具提供热力图(如图像异常区域高亮),辅助人类决策。

(三)测试与评估方法

1.水印评估指标:

(1)保真度:PSNR(峰值信噪比)>40dB,SSIM(结构相似性)>0.95,确保视觉质量无损。

(2)抗攻击性:模拟常见攻击(高斯噪声、旋转裁剪)后检测率(TPR)>90%,误报率(FPR)<1%。< p="">

2.合成检测评估:

(1)跨模型泛化:在未见过的生成器(如Midjourney v6)上测试,要求AUROC >0.85。

(2)误报控制:设定FPR=0.1%时,TPR需>70%(医疗/法律场景需更高严格性)。

3. 红队测试(Red Teaming):

(1)攻击模拟:使用对抗生成网络(如AdvWatermark)尝试移除水印,或生成“对抗样本”欺骗检测模型。

(2)伦理边界:测试需在隔离环境进行,避免真实有害内容传播。

(四)防止AI生成CSAM与NCII的技术

1. 全流程防御:

(1)训练数据清洗:

多级过滤:NSFW分类器+年龄检测模型+人工审核,LAION-5B清理后移除超400万有害样本。

合成数据替代:生成无害图像替代真实CSAM,阻断模型学习路径(如NVIDIA的“安全扩散”技术)。

2. 推理阶段拦截:

(1)提示词过滤:正则表达式匹配(如“teen nude*”)+语义分析(BERT分类违规意图)。

(2)输出阻断:实时运行NSFW分类器(如Google的SAFETY),拦截并上报违规生成。

3. 哈希共享与追踪:

(1)数据库协作:NCMEC整合AIG-CSAM哈希,平台(如Google Cloud)实时扫描用户上传内容。

(2)法律适配:推动《EARN IT法案》扩展至合成内容,要求平台强制匹配哈希库。

(五)与NIST AI风险管理框架(RMF)的整合

1. 生命周期管理:

(1)设计阶段:将水印模块嵌入模型架构(如Stable Diffusion的SafetyChecker)。

(2)部署阶段:API服务集成实时检测(如OpenAI的Moderation Endpoint)。

(3)监控阶段:日志记录合成内容使用情况,触发阈值告警(如单用户高频生成触发人工审核)。

2. 多方责任:

(1)开发者:开源模型需预置安全层(如LoRA安全微调限制)。

(2)平台:部署检测工具并公开透明度报告(如Meta的AI生成内容标签政策)。

(3)用户:教育公众使用验证工具(如Adobe的Content Credentials查看器)。

二、结论

1. 技术瓶颈:

(1)水印安全性:需突破信息论极限(如抗任意噪声的零知识水印)。

(2)检测时效性:生成模型迭代速度(如每月新版本)远超检测模型更新周期。

2. 生态构建:

(1)标准统一:推动C2PA成为ISO标准,兼容China的AIGC监管协议。

(2)激励措施:政府补贴支持中小企业采用水印技术,或对未合规模型征收风险税。

3. 社会协同:

(1)数字素养:在中小学课程加入AI内容鉴别模块(如英国“Media Smart”计划)。

(2)法律威慑:参照欧盟《AI法案》对生成恶意内容实施高额罚款与刑事责任。

三、总结

报告强调,单一技术无法根治合成内容风险,需构建“技术-标准-政策-教育”协同生态。短期聚焦水印与检测工具落地,中长期需突破抗攻击算法与去中心化信任机制(如区块链存证)。最终目标是在开放创新与风险控制间取得平衡,避免“技术乌托邦”或“过度监管”极端。

https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-4.pdf

撰稿|刘晋名

责编|李江珊

声明:本文来自三所数据安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。