近期,英国科学、创新和技术部(Department for Science, Innovation and Technology, DSIT)的负责任技术采用单位(Responsible Technology Adoption Unit, RTAU)与ICO联合发表博文,讨论了隐私保护联邦学习(Privacy-Preserving Federated Learning, PPFL)的成本和收益。

什么是隐私保护联邦计算

联邦学习是一种机器学习方法,它涉及在不集中收集训练数据的情况下训练模型。在联邦学习中,中央服务器向每个参与者发送部分训练模型的副本,并收集模型更新而不是数据。每个联邦学习的参与者在自己的数据上本地训练模型,构建模型更新,但不会共享数据。通过在联邦学习之上“叠加”额外的隐私增强型技术(PETs),可以防止从模型更新或输出中重建敏感数据,这就是隐私保护联邦学习(Privacy-Perseving Federated Learning,以下简称PPFL)。

成本与收益

为了说明应用PPFL的成本与收益,比较了在存储训练数据到中央服务器的传统训练方法(以下称基线场景)与只共享模型更新的联邦学习场景下各自的成本与收益,如下图所示。

PPFL的成本和收益高度依赖于特定情境,因此文章探讨了部署PPFL时应考虑的不同类型成本和收益,而不是尝试直接量化这些成本和收益。

1. 基础设施

在文章的“Infrastructure considerations”部分,对隐私保护联邦学习(PPFL)和基线(baseline)场景进行了比较。以下是对这部分内容的抽取和总结:

(1)中央服务器:

- 无论是PPFL还是基线场景,通常都需要开发者建立一个中央服务器来协调学习过程。

- 对于PPFL,中央服务器不需要存储所有训练数据的副本,这减少了基础设施和网络开销,尤其是在处理大型数据集时。

(2)数据传输:

- 在基线场景中,需要将所有训练数据收集到中央位置,这涉及到数据的集中存储和处理。

- PPFL通过仅共享模型更新而不是原始数据,减少了数据传输的需求,从而降低了数据泄露的风险。

(3)定制隐私基础设施:

- PPFL可能需要额外的隐私保护措施,如安全CPU或GPU飞地[1],以提供输入隐私。这可能需要购买支持飞地的硬件或使用托管云服务,如Azure Confidential Computing或AWS Nitro Enclaves。

- 另一种选择是使用同态加密或安全多方计算来提供输入隐私,虽然不需要增加硬件,但这可能会引入额外的计算和网络开销。

(4)基础设施维护:

- 基线场景需要维护一个(可能很大的)中央数据库,并实施适当的数据治理和安全机制来保护和确保敏感数据的安全。

- 在PPFL中,这些成本和风险被分散。例如,在多个组织协作的联邦学习场景中,不同的数据所有者将承担这些成本。

(5)模型迭代:

- 在基线场景中,当新数据到来时,需要先将新数据导入中央数据库,然后重新训练模型。

- PPFL不需要这一步,这可能意味着与在集中式系统中更新模型相关的成本较低。

(6)成本权衡:

- 组织需要在PPFL的额外成本与降低风险/威胁水平的节省之间进行权衡,并考虑依赖各自组织现有的数据治理方法的能力。

在许多情况下,PPFL可能能够提供成本节约,尤其是在减少数据集中存储和处理的需求方面。通过这种方式,PPFL有助于降低数据泄露的风险,并可能简化与数据保护法规的合规性。

2. 技术成熟度

(1)系统架构:

PPFL需要设计系统架构、构建数据管道和模型开发,这些与基线场景相似。

(2)框架成熟度:

PPFL相关的框架可能不如传统的机器学习框架(如TensorFlow、JAX和PyTorch)成熟,这可能导致实施复杂性增加。随着开源联邦学习框架(如PySyft和Flower)的不断发展和成熟,PPFL的实施复杂性可能会降低。

(3)技能和经验:

由于PPFL工具和技术相对较新且未广泛采用,可能缺乏具备设计和部署这些系统所需技能和经验的人才,这可能会增加短期的人员成本和风险。

在技术成熟度方面,PPFL相对于基线场景面临更多的挑战,包括技术实施的复杂性、人才和专业知识的缺乏。然而,随着技术的发展和社区的支持,这些挑战预计将得到缓解,使得PPFL成为一个更加可行和吸引人的选项。

3. 法律考虑

使用PPFL的组织需要确保至少符合数据保护和特定行业法规的合规性,这与基线场景相同。

虽然法律咨询费用是固定支出,但是PPFL可以显著减少数据保护风险,因为它减少了需要共享的数据量,有助于减轻与转移和集中存储数据相关的风险。

而且ICO的指南中指出,适当使用的差分隐私等方式可以被视为匿名化,这有助于限制因不当或不安全披露或发布个人数据造成的风险。本地处理数据符合数据最小化和默认数据保护的要求,有助于组织遵守英国GDPR,减少数据泄露风险和相关成本,简化合同要求。

4. 长期收益

(1)长期效率

PPFL通过建立一种整合来自不同数据提供者数据的洞察力的方法和结构,可以提高长期效率。这使得在未来添加新的数据源变得更加容易,从中央模型更好地理解迭代需求,从而持续改进模型。

(2)使用和货币化数据资产

PPFL允许组织利用那些以前由于隐私和安全顾虑而无法使用的数据资产。通过这种方式,组织可以将自己的数据资产提供给其他组织,同时也能够访问其他组织以同样方式提供的数据资产。这为数据的货币化提供了新的机会,例如通过提供数据访问来获得收益。

(3)风险和合规性

尽管从法律和合规的角度来看,投资PPFL可能存在风险,但PPFL作为一种设计上就考虑隐私保护的架构方法,可以减少组织面临的法律和合规风险。通过减少需要移动到集中式模型中的数据量,PPFL提供了一种更健壮、更能够适应未来隐私法规变化的方法。用户和监管也会更愿意采用尊重隐私和安全的产品,在产品声誉上也能创造一定价值。

(4)网络效应

PPFL的成功部署可能会鼓励更多的组织采用这种技术。随着越来越多的组织采用PPFL,跨组织和行业的合作机会将增加,这将进一步解锁数据的价值。网络效应可能导致PPFL的采用率和影响力随着时间的推移而增长。

PPFL和PETs总体上有可能使组织充分利用数据协作和创新的日益增长的机会。PPFL是一种需要早期投资和思考的架构方法,但一旦运行,通过减少需要集中存储或共享的数据量,可以带来效率和更大的安全性。而不了解成本与收益也可能是组织目前不采用PPFL的原因。未来DSIT和ICO将继续合作,支持组织评估采用PPFL和其他PETs的成本和收益,并在接下来的几个月中分享更多资源,帮助组织更好地理解采用PETs对他们的影响。

Science Technology

注释:

[1] "Secure CPU or GPU enclaves"(安全CPU或GPU飞地)是一种安全技术,它提供了一种在处理器(CPU或GPU)内部创建一个隔离的执行环境的方法。这种技术允许敏感的计算任务在一个受保护的区域内执行,这个区域对操作系统和其他应用程序是不可见的。飞地技术是硬件级别的安全特性,旨在保护数据和代码免受恶意软件和其他未经授权的访问。

[2] 本文由作者与大模型共同完成。头图为AI生成。

声明:本文来自那一片数据星辰,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。