美国NIST发布AI 100-4报告《减轻生成内容风险》

来源：美国NIST官网

摘要：2024年11月，美国国家标准技术研究所（NIST）发布了AI 100-4报告《减少合成内容风险》（Reducing Risks Posed by Synthetic Content），该报告聚焦于应对生成式人工智能（GenAI）产生的合成内容（如图像、视频、文本）带来的风险，提出通过技术手段提升数字内容透明度的解决方案。该报告强调GenAI的双刃剑效应：虽推动创新，但也加剧虚假信息、欺诈、儿童性虐待材料（CSAM）和非自愿亲密图像（NCII）等危害。核心目标是通过追踪内容来源、检测合成内容及防止有害内容生成，增强数字生态系统的信任与安全，但需结合技术、标准、教育及政策多维度措施。

一、核心内容

（一）合成内容的危害与风险

1.主要风险类型

（1）虚假信息：深度伪造视频伪造政治人物言论、AI生成新闻误导公众决策。

（2）CSAM/NCII：生成工具降低制作门槛，导致真实儿童受害者的二次伤害和女性被恶意伪造私密影像。

（3）身份欺诈：语音克隆伪造亲属求助诈骗，AI换脸视频用于勒索或虚假身份认证。

（4）网络安全威胁：伪造生物特征（如人脸）绕过身份验证系统，或伪造企业高管指令进行资金欺诈。

2. 风险传播链条

（1）创建阶段：攻击者利用开源模型（如Stable Diffusion）生成有害内容，或通过微调模型规避安全限制。

（2）发布阶段：社交平台缺乏实时检测能力，导致有害内容快速扩散。

（3）消费阶段：公众难以辨别合成内容，引发社会信任危机（如“后真相时代”）。

3. 差异化应对

（1）高熵内容（如长文本、高分辨率图像）：需结合多模态检测（水印+元数据+统计特征）。

（2）定向攻击（如针对特定个体的NCII）：需快速溯源与平台联动删除机制。

（二）内容透明度技术方法

1. 来源追踪（Provenance Data Tracking）

（1）数字水印技术：

隐蔽水印实现：

图像：基于频域（DCT/DWT）的系数修改，或通过扩散模型初始噪声注入（如“树环水印”）。

文本：调整语言模型token概率分布（如“红绿列表”算法），或嵌入语法结构扰动（如句法树标记）。

音频：修改梅尔频谱图的高频成分或相位信息，人耳不可察觉。

技术权衡：

鲁棒性：水印需抵抗常见操作（JPEG压缩、重采样、裁剪），但可能牺牲容量（如仅能嵌入模型ID而非完整元数据）。

安全性：私有水印（如SynthID）依赖模型内部机制，但可能被逆向工程破解；公有水印易遭伪造攻击。

（2）元数据记录与验证：

C2PA标准：

链式签名：记录内容从生成到每次编辑的完整历史，每个操作者（相机、编辑软件）附加数字签名。

数据存储：元数据可嵌入文件（如JPEG XM段）或外链至去中心化存储（IPFS），依赖哈希索引防篡改。

挑战：

密钥管理：硬件签名模块（HSM）保护私钥，但消费级设备（如手机摄像头）难以普及。

跨平台兼容：社交媒体可能剥离元数据，需推动平台支持（如Meta承诺兼容C2PA）。

2. 合成内容检测（Detection）

（1）自动化检测技术：

多模态特征融合：

图像：检测生成模型的固有伪影（如扩散模型的棋盘格噪声、GAN的瞳孔不对称）。

文本：分析“困惑度”（perplexity）和“突发性”（burstiness），或利用LLM生成对比文本识别统计偏差。

音视频：检测嘴型-语音同步误差，或通过光流分析不自然运动轨迹。

对抗攻击应对：

动态更新：检测模型持续训练以覆盖新型生成器（如Sora视频检测需专用数据集）。

集成学习：组合多个弱分类器（如FreqNet+ResNet）提升鲁棒性。

人工辅助机制：

众包标注：平台用户标记可疑内容，结合专家审核（如Twitter社区注释）。

可解释AI：检测工具提供热力图（如图像异常区域高亮），辅助人类决策。

（三）测试与评估方法

1.水印评估指标：

（1）保真度：PSNR（峰值信噪比）>40dB，SSIM（结构相似性）>0.95，确保视觉质量无损。

（2）抗攻击性：模拟常见攻击（高斯噪声、旋转裁剪）后检测率（TPR）>90%，误报率（FPR）<1%。< p="">

2.合成检测评估：

（1）跨模型泛化：在未见过的生成器（如Midjourney v6）上测试，要求AUROC >0.85。

（2）误报控制：设定FPR=0.1%时，TPR需>70%（医疗/法律场景需更高严格性）。

3. 红队测试（Red Teaming）：

（1）攻击模拟：使用对抗生成网络（如AdvWatermark）尝试移除水印，或生成“对抗样本”欺骗检测模型。

（2）伦理边界：测试需在隔离环境进行，避免真实有害内容传播。

（四）防止AI生成CSAM与NCII的技术

1. 全流程防御：

（1）训练数据清洗：

多级过滤：NSFW分类器+年龄检测模型+人工审核，LAION-5B清理后移除超400万有害样本。

合成数据替代：生成无害图像替代真实CSAM，阻断模型学习路径（如NVIDIA的“安全扩散”技术）。

2. 推理阶段拦截：

（1）提示词过滤：正则表达式匹配（如“teen nude*”）+语义分析（BERT分类违规意图）。

（2）输出阻断：实时运行NSFW分类器（如Google的SAFETY），拦截并上报违规生成。

3. 哈希共享与追踪：

（1）数据库协作：NCMEC整合AIG-CSAM哈希，平台（如Google Cloud）实时扫描用户上传内容。

（2）法律适配：推动《EARN IT法案》扩展至合成内容，要求平台强制匹配哈希库。

（五）与NIST AI风险管理框架（RMF）的整合

1. 生命周期管理：

（1）设计阶段：将水印模块嵌入模型架构（如Stable Diffusion的SafetyChecker）。

（2）部署阶段：API服务集成实时检测（如OpenAI的Moderation Endpoint）。

（3）监控阶段：日志记录合成内容使用情况，触发阈值告警（如单用户高频生成触发人工审核）。

2. 多方责任：

（1）开发者：开源模型需预置安全层（如LoRA安全微调限制）。

（2）平台：部署检测工具并公开透明度报告（如Meta的AI生成内容标签政策）。

（3）用户：教育公众使用验证工具（如Adobe的Content Credentials查看器）。

二、结论

1. 技术瓶颈：

（1）水印安全性：需突破信息论极限（如抗任意噪声的零知识水印）。

（2）检测时效性：生成模型迭代速度（如每月新版本）远超检测模型更新周期。

2. 生态构建：

（1）标准统一：推动C2PA成为ISO标准，兼容China的AIGC监管协议。

（2）激励措施：政府补贴支持中小企业采用水印技术，或对未合规模型征收风险税。

3. 社会协同：

（1）数字素养：在中小学课程加入AI内容鉴别模块（如英国“Media Smart”计划）。

（2）法律威慑：参照欧盟《AI法案》对生成恶意内容实施高额罚款与刑事责任。

三、总结

报告强调，单一技术无法根治合成内容风险，需构建“技术-标准-政策-教育”协同生态。短期聚焦水印与检测工具落地，中长期需突破抗攻击算法与去中心化信任机制（如区块链存证）。最终目标是在开放创新与风险控制间取得平衡，避免“技术乌托邦”或“过度监管”极端。

https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-4.pdf

撰稿｜刘晋名

责编｜李江珊

声明：本文来自三所数据安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

美国NIST发布AI 100-4报告《减轻生成内容风险》

《网络安全技术网络安全产品互联互通第5部分：行为信息格式》等9项国家标准公开征求意见

《数据安全技术电子产品信息清除技术要求》强制性国家标准公开征求意见

世界数字科学院发布行业首个AI智能体安全测试标准

美国NIST发布AI 100-4报告《减轻生成内容风险》

《网络安全技术 网络安全产品互联互通 第5部分：行为信息格式》等9项国家标准公开征求意见

《数据安全技术 电子产品信息清除技术要求》强制性国家标准公开征求意见

世界数字科学院发布行业首个AI智能体安全测试标准

《网络安全技术网络安全产品互联互通第5部分：行为信息格式》等9项国家标准公开征求意见

《数据安全技术电子产品信息清除技术要求》强制性国家标准公开征求意见