来源:美国NIST官网
摘要:2024年11月,美国国家标准技术研究所(NIST)发布了AI 100-4报告《减少合成内容风险》(Reducing Risks Posed by Synthetic Content),该报告聚焦于应对生成式人工智能(GenAI)产生的合成内容(如图像、视频、文本)带来的风险,提出通过技术手段提升数字内容透明度的解决方案。该报告强调GenAI的双刃剑效应:虽推动创新,但也加剧虚假信息、欺诈、儿童性虐待材料(CSAM)和非自愿亲密图像(NCII)等危害。核心目标是通过追踪内容来源、检测合成内容及防止有害内容生成,增强数字生态系统的信任与安全,但需结合技术、标准、教育及政策多维度措施。
一、核心内容
(一)合成内容的危害与风险
1.主要风险类型
(1)虚假信息:深度伪造视频伪造政治人物言论、AI生成新闻误导公众决策。
(2)CSAM/NCII:生成工具降低制作门槛,导致真实儿童受害者的二次伤害和女性被恶意伪造私密影像。
(3)身份欺诈:语音克隆伪造亲属求助诈骗,AI换脸视频用于勒索或虚假身份认证。
(4)网络安全威胁:伪造生物特征(如人脸)绕过身份验证系统,或伪造企业高管指令进行资金欺诈。
2. 风险传播链条
(1)创建阶段:攻击者利用开源模型(如Stable Diffusion)生成有害内容,或通过微调模型规避安全限制。
(2)发布阶段:社交平台缺乏实时检测能力,导致有害内容快速扩散。
(3)消费阶段:公众难以辨别合成内容,引发社会信任危机(如“后真相时代”)。
3. 差异化应对
(1)高熵内容(如长文本、高分辨率图像):需结合多模态检测(水印+元数据+统计特征)。
(2)定向攻击(如针对特定个体的NCII):需快速溯源与平台联动删除机制。
(二)内容透明度技术方法
1. 来源追踪(Provenance Data Tracking)
(1)数字水印技术:
隐蔽水印实现:
图像:基于频域(DCT/DWT)的系数修改,或通过扩散模型初始噪声注入(如“树环水印”)。
文本:调整语言模型token概率分布(如“红绿列表”算法),或嵌入语法结构扰动(如句法树标记)。
音频:修改梅尔频谱图的高频成分或相位信息,人耳不可察觉。
技术权衡:
鲁棒性:水印需抵抗常见操作(JPEG压缩、重采样、裁剪),但可能牺牲容量(如仅能嵌入模型ID而非完整元数据)。
安全性:私有水印(如SynthID)依赖模型内部机制,但可能被逆向工程破解;公有水印易遭伪造攻击。
(2)元数据记录与验证:
C2PA标准:
链式签名:记录内容从生成到每次编辑的完整历史,每个操作者(相机、编辑软件)附加数字签名。
数据存储:元数据可嵌入文件(如JPEG XM段)或外链至去中心化存储(IPFS),依赖哈希索引防篡改。
挑战:
密钥管理:硬件签名模块(HSM)保护私钥,但消费级设备(如手机摄像头)难以普及。
跨平台兼容:社交媒体可能剥离元数据,需推动平台支持(如Meta承诺兼容C2PA)。
2. 合成内容检测(Detection)
(1)自动化检测技术:
多模态特征融合:
图像:检测生成模型的固有伪影(如扩散模型的棋盘格噪声、GAN的瞳孔不对称)。
文本:分析“困惑度”(perplexity)和“突发性”(burstiness),或利用LLM生成对比文本识别统计偏差。
音视频:检测嘴型-语音同步误差,或通过光流分析不自然运动轨迹。
对抗攻击应对:
动态更新:检测模型持续训练以覆盖新型生成器(如Sora视频检测需专用数据集)。
集成学习:组合多个弱分类器(如FreqNet+ResNet)提升鲁棒性。
人工辅助机制:
众包标注:平台用户标记可疑内容,结合专家审核(如Twitter社区注释)。
可解释AI:检测工具提供热力图(如图像异常区域高亮),辅助人类决策。
(三)测试与评估方法
1.水印评估指标:
(1)保真度:PSNR(峰值信噪比)>40dB,SSIM(结构相似性)>0.95,确保视觉质量无损。
(2)抗攻击性:模拟常见攻击(高斯噪声、旋转裁剪)后检测率(TPR)>90%,误报率(FPR)<1%。< p="">
2.合成检测评估:
(1)跨模型泛化:在未见过的生成器(如Midjourney v6)上测试,要求AUROC >0.85。
(2)误报控制:设定FPR=0.1%时,TPR需>70%(医疗/法律场景需更高严格性)。
3. 红队测试(Red Teaming):
(1)攻击模拟:使用对抗生成网络(如AdvWatermark)尝试移除水印,或生成“对抗样本”欺骗检测模型。
(2)伦理边界:测试需在隔离环境进行,避免真实有害内容传播。
(四)防止AI生成CSAM与NCII的技术
1. 全流程防御:
(1)训练数据清洗:
多级过滤:NSFW分类器+年龄检测模型+人工审核,LAION-5B清理后移除超400万有害样本。
合成数据替代:生成无害图像替代真实CSAM,阻断模型学习路径(如NVIDIA的“安全扩散”技术)。
2. 推理阶段拦截:
(1)提示词过滤:正则表达式匹配(如“teen nude*”)+语义分析(BERT分类违规意图)。
(2)输出阻断:实时运行NSFW分类器(如Google的SAFETY),拦截并上报违规生成。
3. 哈希共享与追踪:
(1)数据库协作:NCMEC整合AIG-CSAM哈希,平台(如Google Cloud)实时扫描用户上传内容。
(2)法律适配:推动《EARN IT法案》扩展至合成内容,要求平台强制匹配哈希库。
(五)与NIST AI风险管理框架(RMF)的整合
1. 生命周期管理:
(1)设计阶段:将水印模块嵌入模型架构(如Stable Diffusion的SafetyChecker)。
(2)部署阶段:API服务集成实时检测(如OpenAI的Moderation Endpoint)。
(3)监控阶段:日志记录合成内容使用情况,触发阈值告警(如单用户高频生成触发人工审核)。
2. 多方责任:
(1)开发者:开源模型需预置安全层(如LoRA安全微调限制)。
(2)平台:部署检测工具并公开透明度报告(如Meta的AI生成内容标签政策)。
(3)用户:教育公众使用验证工具(如Adobe的Content Credentials查看器)。
二、结论
1. 技术瓶颈:
(1)水印安全性:需突破信息论极限(如抗任意噪声的零知识水印)。
(2)检测时效性:生成模型迭代速度(如每月新版本)远超检测模型更新周期。
2. 生态构建:
(1)标准统一:推动C2PA成为ISO标准,兼容China的AIGC监管协议。
(2)激励措施:政府补贴支持中小企业采用水印技术,或对未合规模型征收风险税。
3. 社会协同:
(1)数字素养:在中小学课程加入AI内容鉴别模块(如英国“Media Smart”计划)。
(2)法律威慑:参照欧盟《AI法案》对生成恶意内容实施高额罚款与刑事责任。
三、总结
报告强调,单一技术无法根治合成内容风险,需构建“技术-标准-政策-教育”协同生态。短期聚焦水印与检测工具落地,中长期需突破抗攻击算法与去中心化信任机制(如区块链存证)。最终目标是在开放创新与风险控制间取得平衡,避免“技术乌托邦”或“过度监管”极端。
https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-4.pdf
撰稿|刘晋名
责编|李江珊
声明:本文来自三所数据安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。