ANONYMIZATION AND RISK

匿名化及其风险

Ira S. Rubinstein &Woodrow Hartzog

91 Washington Law Review 703 (2016)

作者信息

Ira S. Rubinstein

Senior Fellow, Information Law Institute, NYU School of Law

纽约大学信息法研究所高级研究员。他的研究领域包括互联网隐私、电子监控法、大数据、选民隐私、欧盟数据保护法、隐私工程。

Woodrow Hartzog

Professor of Law and Computer Science , Northeastern University

美国东北大学法学院和 Khoury 计算机科学学院的法律和计算机科学教授。著有Privacy’s Blueprint: The Battle to Control the Design of New Technologies,该书被称为“我们这个时代最重要的隐私书籍之一”。

文章梗概

数据的匿名化处理是保护数据主体隐私安全的重要组成部分,但是绝对匿名化的概念只是一个“神话”,个人信息经匿名化处理后仍然存在与其他信息相结合或者在新的技术条件下识别特定个人的可能性。从匿名数据集中识别特定个人的可能性引发了隐私法中的激烈辩论,匿名化的可信度成为形式主义者和实用主义者长久以来的争论焦点。

本文指出匿名化规则之所以一直停滞不前的原因在于它是一种以结果导向规则。数据发布政策应当聚焦于将再识别和敏感数据披露风险最小化的程序,而不是以结果为导向一昧地阻止损害发生。聚焦于风险最小化程序的数据发布政策借鉴了不同的方法来保护数据主体的隐私,包括精确的去标识化、禁止再识别、披露敏感信息的合同、数据飞地,以及通过查询使保护措施与风险水平相匹配。作者建议采纳数据安全法的立法思路,事前规定合理程序,事中定期进行风险评估,采取技术、物理和程序保障措施,同时当系统或数据集被破坏时采取适当的应对举措。此外,还应当避免制定过于详细的规则,遵守行业标准。

通过聚焦于减少风险的程序规则,而不是实际消除损害,实现数据共享的同时仍然保护数据主体,有助于摆脱数据匿名化局限,更好地平衡隐私保护和数据实用性,打破形式主义者和实用主义者之间关于匿名化的辩论僵局。

文章结构

本文共分为三个部分。

在第一部分中,作者回顾了匿名化辩论及其停滞不前的政策,并提出匿名化政策应该被重新定义为数据发布政策。

在第二部分中,作者提出数据发布政策应关注风险最小化的程序,并借鉴数据安全法的立法思路。

在第三部分中,作者在FTC基于程序保护数据主体的方法基础上,研究了如何利用统计披露限制领域(SDL)的全部技术来调整数据发布义务。作者确定了具体的风险载体,如数据量、数据敏感性、数据接收者的类型、数据使用、数据处理技术、数据访问控制以及同意和消费者期望。最后,作者提出了法律改革建议,包括对“合理的”数据公开保护的一般要求和禁止欺骗性的去标识化。

文章内容

一、匿名化争论

作者认为匿名化辩论之所以对隐私法的影响如此之小,是因为辩论焦点过分强调了去标识化方法,而忽略了数据发布技术中的其他方法。本部分重新审视了原始攻击和概念验证文件,以批判性的眼光来理解去标识化及其失败原因,并分析了去标识化替代技术的优势和劣势。

(一)匿名化存在的问题和解决方案

作者首先解释了去标识化的运作模式。去标识化一词与匿名化的不同,它最基本步骤是删除直接标识符(直接识别独特个体的数据,如姓名或社保号),或用假名、随机值取代直接标识符。相对于直接标识符,准标识符本身并不识别特定的个人,但可以与其他信息汇总和链接以识别数据主体,并且准标识符所传达的有用信息可能对后续分析很重要,因此数据管理者更倾向于采用概括(例如将出生日期改为出生月份或年份)、抑制(例如删除记录中异常值)等更复杂的技术来改变准识别符,而不是删除它们,这也为去标识化的数据集容易受到再识别的攻击埋下的伏笔。在链接攻击中,对手可以利用辅助信息,将个人与去标识的数据集中记录联系起来,能够实现再识别特定个人。辅助信息本身是无害的,但与其他数据结合就可能会产生隐私泄露。

由于实用主义者和形式主义者代表着不同的学科,有着非常不同的历史背景、问题研究方法和目标,他们在看待辅助信息问题的影响和再识别风险方面存在着严重分歧。作者认为统计披露限制(SDL)研究能够弥合二者分歧,即一方面既承认去标识化的局限性,另一方面不放弃去标识化技术,同时采取全方位的技术来避免再识别问题。SDL包括研究人员以研究目的传播官方统计数据和其他数据而开发的一系列原则和技术,同时保护数据主体的隐私。SDL主要包括三种互动形式:直接访问、基于传播的访问和基于查询的访问。直接访问可以避免再识别问题,因为它从不向公众发布数据集,从而对手无法进行链接攻击。基于传播的访问将数据的公开与对数据集的隐蔽相结合,去标识化属于SDL中基于传播的访问的子类别。基于查询的访问中用户依靠技术进行统计查询,而不需要对基础数据集有任何直接访问,也避免了大部分再识别的问题。

最后,作者围绕开放数据是不是科学进步的先决条件的问题进行了讨论分析。开放数据指的是人人都能获得的信息,机器可读、零成本在线提供,并且对重复使用和重新分配没有限制。通过对基因组数据共享政策的最新发展进行案例研究,作者得出结论:1.在不向公众无限制地发布数据的情况下,也可以实现开放访问的大部分好处。纯粹意义上的开放数据可用性并不是最重要的,重要的是健全的政府、企业和个人基于数据作出的决策。2.面对再识别的攻击,可以通过结合技术和政策保障措施来平衡参与者的隐私和为研究目的数据实用性。通过其他机制(如知情同意协议、分级访问和DUA)能够对去标识化进行补充,为用户提供多层保护。

(二)走出去标识化的争论

作者回顾了以往关于去标识化的文献,发现隐私学术界似乎固定在去标识化的争论上,不同的论点和意识形态往往是孤立甚至极端对立,继而导致了政策辩论停滞不前。去标识化争论忽视和混淆了已有的成功案例,这些案例既避免了过去的错误,又取得了重大成果。作者建议在SDL和相关主题的分析背景下,可以围绕风险最小化的概念制定数据发布政策。

二、降低风险的程序化政策

匿名化的辩论如此热烈的原因之一是这个概念本身就有过度承诺,与其关注匿名化的最终目标,不如围绕降低再识别和敏感属性披露风险的必要程序来制定法律政策。鉴于系统性的障碍(如辅助信息问题)和可能影响信息实际保护程度的变量,以结果为导向的数据发布政策并不理想。更有效的方法是侧重于保护所需的前提条件和过程,确保数据管理者遵守程序以最大限度地减少风险,比如与法律和行政工具相结合的去标识化,或在适当情况下基于查询的方法(如差分隐私)。

本部分作者提出数据发布政策应关注风险最小化的过程,并且借鉴数据安全法,制定一个基于程序的数据发布政策,作为一个整体的、有背景的和可容忍风险的方法。

(一)传统隐私法的不足

作者认为隐私法的传统目标和策略并不真正适合与数据集开放有关的具体问题。大多数现有的隐私法都侧重于特定的数据主体和离散的信息类型,而不是整体的数据集。作者分别分析了传统隐私法中聚焦于损害、数据透明度和信息披露、知情同意模式,认为以上方法都不足以解决匿名化的所存在的问题。

首先,在传统隐私法中的损害是一个有争议的概念,隐私损害是渐进式、难以量化和阐明的;并且与失败匿名化有关的损害也很难被发现,因为再识别通常是隐蔽的,能以基本无法察觉的方式对人和特征进行再识别,所以失败的匿名化所带来的损害可能要到事后很多年才会被发现,到那时可能已经无法分辨出谁在传统法律意义上造成了伤害。

其次,仅仅关注透明度和信息披露也是无法弥补匿名化的缺陷。鉴于数据海量性、不可渗透性和相互关联性,消费者只有有限的能力对自己的隐私做出有意义的决定,并且如此大规模的数据量将使消费者不堪重负,对数据控制很快就变成了一种负担,最终导致通知和决策机制无效。

此外,医学研究中知情同意模式也存在许多问题。为了进行医学研究,公司和研究人员必须寻求监管机构或数据主体的许可。但是在私人领域,公司很容易获得同意,导致这种同意变得毫无意义。

简而言之,传统的隐私法过于关注收集、使用或披露数据的性质。当具体的损害难以描述甚至很难找到的时候,事后的个性化补救措施也不是很有效。相反,程序和风险可以指导最佳的前进道路。

(二)类似于数据安全法

作者认为将以程序规制为导向的数据安全方法应用于去标识化规制是合适的。数据发布问题横跨了隐私和数据安全两个领域。虽然在许多方面可能很难区分隐私和安全问题,但是在数据保管者不依赖于“发布后遗忘”的情况下,数据发布在很大程度上是一个数据安全问题,因为它涉及到谁可以实际访问、使用和改变数据。“发布后遗忘”的方法是指在匿名化处理完成后,数据控制者还需要注意防控剩余风险(再识别风险)。作者概述了以程序为基础的三个核心方面,分别是基于程序,受环境影响,可以承认风险。

首先,数据发布更适合于基于程序的数据安全模式,而不是以结果为导向的侵权法模式。数据泄露案件中个人的实际损害往往难以证明,不满足侵权法所要求的因果关系。在基于程序的制度中,即使没有实际的违规行为,没有履行法定程序的企业也要承担责任,因为法律要求的是过程而不是结果。因此,发布数据集的一方应该通过适当的去标识化程序来保护人们,结合对访问或使用数据限制,或在适当的时候依赖基于查询的方法。此外,当数据集通过链接攻击组合在一起以再识别个人时,很难分摊相对过失,而程序规制有助于解决这种问题。

其次,数据安全对环境是敏感的,企业所需的安全水平取决于数据的敏感性、公司业务运营的规模和性质以及公司面临的风险类型。数据发布政策同样也受环境影响,因为去标识化发展很快,而且去标识化风险取决于大量的因素,包括不同的攻击动机,不同的计算再识别风险的方法,描述攻击者能力的不同标准等等。这些因素都意味着“一刀切”的数据发布政策标准不会有效,这种尝试注定不是过度保护就是保护不足。因此,去标识化政策应该类似于数据安全政策的对环境敏感。

对数据采取承认风险的方法,将有助于摆脱“完美”匿名化的困境。数据安全以程序规则为导向,重视事前控制,因此隐含地表明了法律会容许一定的危害。通过关注过程而不是结果,数据发布政策可以将再识别和敏感属性披露的成本提高到可接受的水平,而不必确保完美的匿名化。

(三)不只是去标识化

围绕匿名化的辩论大多集中在转化数据的技术手段上,或者更狭义地说是去标识份化。作者认为在安全发布数据集方面,数据控制与去标识化同样重要。在去标识化辩论中应当加强对数据控制的关注,但是不应致力于某种特定的数据控制,而应结合数据处理技术、企业支持和意识框架,采用全方位的数据控制,以建立一个完善的去标识化制度。

作者认为完善程序规制可以最大限度地减少或消除“发布后遗忘”的去标识化,比如在数据发布过程应要求数据接收者提供DUA,承诺不进行身份识别,保留审计线索,并延续去标识化保护措施。由于合理的去标识化取决于许多因素,因此应允许企业在特定情况下灵活选择哪些数据控制是合理的。

(四)风险因素

在联邦贸易委员会框架的基础上,作者分析了不同的风险载体,以确定公司在发布数据集时必须采取的保护措施:

1.数据量。数据量会影响再识别和敏感属性披露的风险。一些大型数据集具有高度的单一性,这使其更容易受到再识别攻击。

2.数据的敏感性。敏感信息与影响个人的隐私伤害密切相关,它适合用威胁建模的方法来评估风险程度

3.数据的接收者。主要有三种不同类型的数据接收者,每一种的风险都越来越大:(1)内部接收者;(2)受信任的接收者;(3)一般公众。内部接收者安全性最高,但是理解“内部”的概念很重要。受信任的接收者风险较大,但却是数据发布政策的组成部分。者认为在所有其他变量相同的情况下,公开发布数据应被视为有内在问题,需要最大程度的保护。将企业归类的一种方法是评估其隐私计划,评估的内容包括它是否以尽量减少再识别和敏感属性披露的风险的方式收集和存储数据?是否为其员工提供隐私培训,对虚拟数据和物理存储进行分割,执行有关去标识化的公司政策?这些内容不仅对确保数据处理和数据控制的一致性至关重要,也防了止内部人员对去标识化数据造成威胁。

4.数据的使用。鉴于攻击者识别个人或敏感属性的潜在危害和动机,了解数据的使用目的能够提供更好的保护。

5.数据处理技术。风险因使用去标识化和SDL技术来保护数据主体的操作方式而不同。

6.数据访问控制。风险取决于数据的发布方式。比如当SDL和其他访问控制被用来限制谁可以访问数据以及如何访问时,能够降低再识别或敏感数据披露的风险。

7.数据主体的同意或期望。企业通过隐私政策等方式告知用户收集使用其数据的目的和方式。另外,为了避免欺骗性承诺,保护措施应该达到或超过公司声明所产生的消费者期望。

(五)符合行业标准

数据发布政策必须具有灵活性才能可持续并有效适用,这反过来又要求缺乏特定性。数据发布法越详细,就越快过时。作者提出可以将合理行为义务与行业标准联系起来。通过制定和借鉴类似于数据安全政策的行业标准,数据发布政策能变得更具体、更灵活、更贴近现实和技术现状。

行业标准会定期更新,并得到了一个行业的大多数人的支持。美国的数据安全法也要求合理遵守行业标准。这种方法使数据安全标准具有灵活性,可根据具体情况进行协调,并由负责保护数据安全的人确定。数据安全专业人员从行业和国际标准组织中寻找最先进的标准,然后合理地进行跟踪。这种方法为那些难以在特定情况下精确规定最佳保护措施提供了喘息空间,确保了围绕数据安全这样的高尖技术领域的规则能够立足于现实,并且是最新的。因此,数据发布政策也应与国际数据安全标准联系起来。

此外,作者指出服从行业标准并非没有风险,必须确保最低限度的保护。一种做法是标准的,并不能确保它是充分的。因此,监管机构必须确保采取共同监管的方式,帮助制定最低行业标准,并在行业标准不能提供最低保护标准时介入。

三、政策的实施

以程序为导向的数据发布政策可以逐步实施,并作为一种额外的保护策略,在某些情况下替代基于结果的制度。政策制定者可以逐步纳入基于程序的数据发布规则,而不会对现有的隐私制度造成巨大动荡。在这一部分中,作者回顾了现实中可以改变的法律领域并提出改革建议,以期更多地关注程序而不是结果。

(一) 从结果到程序

基于合理程序的数据发布保护的原则与数据安全的原则相似,所以作者建议在参考新兴行业标准,采用公认的去标识化和SDL技术,并对七个风险载体考虑的基础上,对合理的数据安全四个原则进行修改,以确立企业能够满足“合理的数据发布保护”的一般要求。四个原则的具体内容包括:(1) 评估要共享的数据和披露的风险;(2) 尽量减少要发布的数据;(3) (酌情)实施合理的去标识化或额外的数据控制技术。(4)制定监测、问责和违约应对计划。

合理的、基于程序的数据发布保护可以在各种隐私制度中实施,比如HIPAA隐私规则目前概述了两种健康数据集去标识化途径,安全港方法和专家认定。修改安全港方法,要求在技术、企业和合同上限制对去标识的数据集的访问以及去标识化。专家认定则是要求专家对程序进行认证,而不是评估风险。尽管这些方法有其自身的缺点,它们可以更好地促进有效的数据发布保护,并降低评估再识别和敏感属性披露风险的难度。

作者指出使用合理的数据发布保护监管的优势主要有以下几方面:首先,公司将被激励接受全方位的SDL方法,并将去标识化技术与访问控制相结合以保护数据。其次,共同监管的方式将推动行业标准和安全港清单的发展,这将使数据发布正常具有可行性和基础性。最后,以合理性标准为基础的基于过程的方法是灵活的。利用风险分析为程序提供信息而不是决定监管措施,也为不精确的去标识化提供了回旋余地。

向基于风险的程序转变也解决了匿名化辩论中几个顽固问题。首先,企业不必对完美的匿名化作出 “破碎的承诺”。相反,企业将在合理的安全措施基础上提供适当的保证。其次,利用受信任接收者和直接访问方法来限制大多数对手对受保护数据集的访问,为辅助信息问题提供可能的变通办法。

(二)禁止欺骗性的去标识化

作者指出“匿名”和“匿名化”这两个词通常伴随着过度承诺的问题,应该谨慎地使用并适当注意准确性,在大多数情况下它们创造了不现实的消费者期望。因此,类似“假名化”这样的术语在技术上往往更准确。但是我们不应该抛弃“去标识化“,而是应该澄清它的含义,它是一个广泛的通用术语,指的是数据管理者处理和控制数据的过程,数据管理者通过这种方式,结合数据更改和删除技术以及共享和挖掘控制,使数据使用者更难或更不可能确定数据主体的身份。作者还提出可以用“隐蔽性”作为共享信息中隐私概念。当信息是隐蔽的,也就是说,不太可能被发现或理解,在某种程度上,它是安全的。

正确看待去标识化对确定人们关于保护数据的期望是至关重要的。如果公司不承诺完美,人们也不期待完美,那么去标识化政策将更有可能反映现实。因此,有必要提高消费者预期的准确性。企业应当在使用条款或协议中使用准确真实的语言进行承诺和说明,确保匿名化承诺不具有欺骗性。简单地说就是企业不能保证匿名,但是可以承诺匿名。即企业已经评估了使用和发布数据所带来风险,并根据行业标准采取了适当的保护措施。匿名化和去标识化的语言的准确程度将有助于适当地设定消费者的期望。承诺保护程序的实施而不是完美匿名化结果,也将迫使公司积极遵守数据发布政策,而不是被动地从风险评估中获益。

(三)数据发布政策和个人可识别信息(PII)

PII通常定义了隐私法的范围和界限,隐私法将隐私损害与PII联系在一起,而对非PII不加管制。因此,许多企业制定了以区别PII和非PII为前提的合规战略,并采取措施将PII转化为非PII,目的是限制或消除他们在适用的隐私法规和条例下的义务。Schwartz和Solove提出PII应该被概念化为三类信息:1.已识别的人;2.可识别的人;3.不可识别的人。作者认为PII的重新概念化是将数据集的公开发布作为将数据集归入1、2或3类的首要因素,补充了基于风险的去标识化方法,为克服监管问题提供了一条清晰的道路。监管机构应该假设即使数据管理者删除共同的标识符来对数据集进行身份识别,公开发布的数据集仍是可识别的。

作者建议使用“合理联系”标准来确定隐私框架的范围。“合理的联系性”是一个过程要求,达成合同、承诺保护数据、并将数据擦除到一定程度,信息就被排除在隐私法保护框架之外。因此,合理标准的数据发布保护措施和安全港名单上的数据共享,将使公司免受额外的隐私限制,因为对数据主体的伤害风险可能已经得到充分的缓解。

结论

本文提出完善的数据发布政策需要在多个方面取得平衡,包括法律和技术、数据处理和数据控制、隐私和实用性。而且,政策的制定不应是狭隘的,但也不能过于广泛。因此,作者将数据发布政策定位于再识别和敏感属性披露风险最小化的过程,同时借鉴了数据安全法和行业标准。这种方式由平衡数据保护和数据实用性驱动,是整体综合的思路。最重要的是,它是灵活的,可以与相关学科和实务经验共同发展。

关联阅读:

个人信息概念|从知道姓名到个体化:GDPR下识别的含义

个人信息概念|那些不能被识别的人——根据《一般数据保护条例》区分个人和非个人数据

Frederik教授:“假名化信息”是个人信息吗?

翻译:张白荟

编辑:黄昊

声明:本文来自网络西东,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。