2025年4月10日,欧洲数据保护委员会EDPB发布《大型语言模型(LLMs)数据保护风险和缓解指南》报告,共计107页。
作为独立专家研究报告,是EDPB委托承包商提供有关特定主题的报告和工具,并不一定反映 EDPB 的官方立场。
本指南为基于大型语言模型LLM系统的开发人员和用户提供了实用指南和工具,以管理与这些人工智能技术相关的隐私风险,旨在帮助开发人员和用户系统地识别、评估和缓解隐私和数据保护风险,从而支持负责任的系统LLM开发和部署。
本指南还支持 GDPR 第 25 条“设计和默认数据保护”和“第 32 条”处理安全性“的要求,提供技术和组织措施来帮助确保适当的安全和数据保护级别。但是,该指南并非旨在取代 GDPR 第 35 条要求的数据保护影响评估 (DPIA)。相反,它通过解决LLM特定于系统的隐私风险来补充 DPIA 流程,从而提高此类评估的稳健性。
在实践中,LLMs它们通常是系统的一部分,可以通过 API 直接访问,嵌入在 SaaS 平台中,部署为针对特定用例进行微调的现成基础模型,或集成到本地解决方案中。需要注意的是,虽然LLMs它们是 AI 系统的基本组件,但它们本身并不构成 AI 系统。
LLM要成为 AI 系统的一部分,必须集成用户界面等其他组件,使其能够作为一个完整的系统运行。该指南将此类完整系统称为LLM基于系统或简称LLM系统,以强调其更广泛的上下文和功能。在评估与这些系统相关的风险时,这种区别至关重要,因为与独立LLM系统相比,LLM系统由于其额外的组件和集成而本质上会带来更多风险。
指南认为,开发生命周期的每个LLM阶段都可能带来潜在的隐私风险,因为模型与可能包含个人数据的大型数据集交互,并根据这些数据生成输出。
同时,报告也关注到了AI 代理,它是可以构建在大模型之上的自主系统,LLMs可以通过结合LLMs推理、决策和交互功能来执行复杂的任务。
AI 代理是主动的,能够执行以目标为导向的行为,例如规划、执行任务和根据反馈进行迭代。它们可以独立运行,旨在通过按顺序编排多个作来实现特定目标。他们还可以整合反馈,以随着时间的推移改进他们的作或响应。高级 AI 代理可以集成来自其他 AI 系统的功能,例如计算机视觉或音频处理,以处理不同的数据输入。
AI 代理的概念仍然是一个不断发展且尚未完全定义的领域。不同的组织和研究人员对代理 AI 系统的构成提出了不同的解释。
为了用户便利而权衡隐私:随着 AI 代理的能力越来越强,用户将需要考虑他们愿意共享多少个人数据以换取便利。例如,代理可能通过管理旅行预订或协商购买来节省时间,但需要访问敏感信息,例如付款详细信息或登录凭据。平衡这些权衡需要就数据使用策略和强大的同意机制进行明确的沟通。
AI 代理在复杂的环境中运行,可能会遇到不可预见的挑战。当代理犯错或其行为造成伤害时,确定责任可能很困难。组织必须确保决策方式的透明度,并为用户提供在发生错误时进行干预的机制。
以下为指南认为的大型语言模型(LLMs)在生命周期中的数据保护风险。
1. 开始和设计:在此阶段,有关数据要求、收集方法和处理策略的决策。如果包含敏感数据或个人数据而没有采取足够的保护措施,则数据源的选择可能会带来风险。
2.数据准备和预处理:收集、清理原始数据,在某些情况下进行匿名化处理,并为训练或微调做好准备。数据集通常来自不同的来源,包括网络爬取数据、公共存储库、专有数据或通过伙伴关系和协作获得的数据集。
3. 开发、模型训练:使用准备好的数据集来训练模型,这涉及大规模处理。该模型可能会无意中记住敏感数据,如果这些数据在输出中暴露,可能会导致侵犯隐私。
4. 验证和确认:该模型使用测试数据集进行评估,通常包括真实世界的场景。测试数据可能会无意中暴露敏感的用户信息,特别是如果使用真实世界的数据集而没有匿名化。
5. 部署:该模型与来自用户的实时数据输入进行交互,通常在可以与其他系统集成的实时应用程序中。实时数据流可能包含高度敏感的信息,需要对收集、传输和存储进行严格控制。
6. 作和监控:持续数据流入系统以进行监控、反馈和性能优化。来自监控系统的日志可能会保留个人数据,例如用户交互,从而产生数据泄露或误用的风险。
7. 重新评估、维护和更新:可能会收集其他数据用于重新训练或更新模型,以提高准确性或满足新要求。未经适当同意或采取保护措施,使用实时用户数据进行更新可能违反隐私原则。
8. 停用:存档或删除与模型及其作关联的数据。在停用期间未能正确擦除个人数据可能会导致长期的隐私漏洞。
(AI生命周期数据风险示意图)
LLMs可能会带来广泛的隐私和数据保护风险。这些风险由各种因素引起,包括特定用例、应用程序上下文以及评估过程中确定的风险因素和证据。识别和解决这些风险对于旨在负责任地采购、开发或部署LLM基于系统的组织至关重要。
提供商、部署人员和采购团队必须协作解决这些风险。尤其是采购,通过确保选定的系统满足监管标准和组织隐私要求,在弥合提供商和部署人员的责任方面发挥着至关重要的作用。采购过程中的主要考虑因素包括评估提供商的政策、确保遵守相关法规以及嵌入限制数据滥用和支持数据主体权利的条款。
部署LLMs者需要考虑与其特定用例和上下文相关的风险。利用风险因素或评估标准可以促进识别这些风险。例如,“低数据质量”标准已经可以触发识别可能导致伤害的风险处理活动。
总的来看,本报告指南提出了一种全面的风险管理方法,以系统地识别、评估和减轻隐私和数据保护风险。该指南可帮助数据保护机构(DPA)全面了解LLMs系统运行以及与 LLMs。
声明:本文来自互联网法律匠,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。