那些不能被识别的人：根据《一般数据保护条例》区分个人和非个人数据

They who must not be identified—distinguishing personal from non-personal data under the GDPR

那些不能被识别的人——根据《一般数据保护条例》区分个人和非个人数据

Miche`le Finck

Frank Pallas

International Data Privacy Law, 2020

作者从法律和计算机科学的角度来研究非个人数据的概念。尽管难以划分，但个人数据（personal data）和非个人数据（non-personal data）之间的划分对于确定《一般数据保护条例》（以下简称"GDPR"或"条例"）的适用范围是至关重要的。当涉及到去个人化的数据（de-personalized data）时也是如此。本文显示，匿名数据的法律定义是不确定的。GDPR、第29条工作组（the Article 29 Working Party）和国家监管机构所采用的定义也有很大分歧。通过对匿名化技术基础的审查、涉及区块链上使用的个人数据的两个具体案例研究，作者得出结论，在使用匿名化时，始终存在着剩余风险。结论部分将这一结论与GDPR中的风险概念更广泛地联系起来。

/01/ 作者介绍

Miche`le Finck

蒂宾根大学（University of Tübingen）法律和人工智能教授，慕尼黑马克斯普朗克创新与竞争研究所和伦敦大学学院区块链技术中心的附属研究员，以及罗马路易斯大学的客座教授。研究重点是人工智能和数字经济。

Frank Pallas

Frank Pallas 目前在柏林工业大学信息系统工程部工作。同时，他还是柏林工业大学计算机科学与社会系的客座教授。在研究和教学中，他处理现代信息系统和技术的跨学科问题，并整合技术、法律和经济观点。这尤其适用于面向应用的隐私工程的研究重点。

/02/ 文章结构

本文从计算机科学和法律角度评估了GDPR对个人数据和非个人数据的定义，具体包含以下几个部分。第一部分通过分析立法文本和不同监管机构对个人数据和非个人数据的概念解释。第二部分中，作者从技术角度介绍了如何修改个人数据以消除与人相关性（person-relatedness）的内容。第三部分在研究区块链使用案例的实际案例中应用了上述见解。此后的结论部分则基于前述内容对GDPR风险的管理性质进行再认识。

/03/ 文章内容

一、GDPR下个人数据的法律定义

个人数据的定义决定了处理数据的实体是否受制于GDPR对数据控制者规定的各种义务。GDPR采用二元方法，将个人数据和非个人数据区分开来，只将前者纳入其适用范围。但现实中的数据是在明显属于个人的数据、明显属于匿名的数据以及介于两者之间的数据之间进行区分的。此外，个人数据的分类是动态的。

1、个人数据(personal data)

GDPR第4（1）条将个人数据定义为：与已识别或可识别的自然人（“数据主体”）有关的任何信息；可识别的自然人是指可以直接或间接识别的人，特别是通过参考诸如姓名、识别号码、位置数据、在线标识符等标识符或与该自然人的身体、生理、遗传、精神、经济、文化或社会身份有关的一个或多个因素来识别的人。”

因此，个人数据是直接或间接地与已识别或可识别的自然人有关的数据。第29条工作组已经发布了关于如何解释GDPR第4(1)条中测试的四个组成要素——“任何信息”（any information）、“关于”（relating to）、“已识别或可识别的”（an identified or identifiable）和“自然人”（natural person）。

个人数据可以采取任何形式，可以是字母或数字数据、视频和图片。此外，GDPR第4(1)条提到了“信息”（information）而不仅仅是数据（data），表明数据需要一些信息价值。

个人数据的概念应该被广泛地解释。然而，并非所有的数据都构成个人数据。当它是关于该个人的时，数据被认为是与数据主体“有关的”。如果一个人能够与其他人“区分”开来，就被认为是“可识别”的。

最后，GDPR第4（1）条强调，个人数据必须与自然人有关。GDPR不适用于法人或已故的人。

2、区分个人数据和非个人数据

个人数据和非个人数据区分的法律测试体现在GDPR序言第26段中：经过假名化处理（pseudonymisation）的个人数据，如果通过额外的信息可以归属到一个自然人身上，则应被认为是关于可识别的自然人的信息。为了确定一个自然人是否可以被识别，应该考虑到所有可能被使用的手段，例如由控制者或其他人直接或间接识别该自然人；也应考虑到所有客观因素，如识别的成本和所需的时间，同时考虑到处理时的现有技术和技术发展。不受这种测试影响的数据不属于欧洲数据保护法的范围。

GDPR序言第26条设计的测试基本上包含了一种基于风险的方法来确定信息。如果存在合理的识别风险，数据应被视为个人数据。如果这种风险只是疏忽造成的，数据可以被视为非个人数据，即使不能绝对肯定地排除识别。然而，此测试中的一些要素缺乏明确性，特别是由于各监管机构的解释存在差异。

3、理解GDPR序言第26段中的各种要素

尽管GDPR序言第26段似乎包含了区分个人和非个人数据的直接方法，但在实践中它难以实施。下文将GDPR中体现的整体测试划分为其不同的组成要素。

（1）什么是风险？不确定的可识别性标准

GDPR序言第26段规定，如果识别是“合理、可能”发生的，那么就是个人数据，反之则是非个人数据。

然而，第29条工作组采取了不同的方法。一方面，工作小组承认条例的基于风险的方法。另一方面，它似乎设计了其独立的零风险测试。它认为“匿名化是处理个人数据的结果，以实现不可逆的去识别。”

此外，工作组认为，“当数据控制者没有在事件层面上删除原始（可识别）数据，而数据控制者移交该数据集的一部分（例如在删除或掩盖可识别数据后），所产生的数据集仍然是个人数据。这一点受到了批评，因为很可能会出现这样的情况：控制者想要发布匿名数据，同时又需要保留原始数据集。

因此，与GDPR的基于风险的方法相比，工作组似乎认为不能容忍任何程度的风险。

（2）在确定是否发生了匿名化时，应考虑哪些因素？

根据GDPR序言第26段，评估数据是否为假名或匿名的相关标准是可识别性。为了确定一个人是否可以被识别，应该考虑到“所有可能被使用的合理手段”。这包括“所有客观因素，如识别的成本和所需的时间，同时考虑到处理时可用的技术和技术发展”。

此外，第29条工作组认为应该考虑三个标准来确定是否发生了取消身份识别，即①是否仍有可能单独列出一个人；②是否仍有可能将与一个人有关的记录联系起来；③是否仍能推断出有关一个人的信息。如果对这三个问题的回答是否定的，那么数据就可以被认为是匿名的。应该注意的是，虽然GDPR序言第26段现在明确提到了“挑出”（singling out）。推断（inference）和可链接性（linkability）是工作组考虑的要素，尽管在GDPR中没有明确提到。

工作组强调，达到上述三个门槛是非常困难的。分析显示，每一种方法都会留下识别的剩余风险，因此，如果“零风险”存在的话，只有不同方法的组合才能成功地使数据去个人化。

（3）什么是相关的时间尺度？

GDPR序言第26段要求要考虑的“手段”不仅是目前可用的手段，还包括“技术发展”。第29条工作组指出，我们应该考虑“处理时的技术水平”以及“在处理数据期间的发展可能性”。就第二种情况而言，数据的寿命是一个关键因素。事实上，第29条工作组宣布，如果数据将被保存十年，数据控制者“应考虑在数据寿命的第9年内可能发生的识别的可能性，这可能使他们在那一刻成为个人数据”。

然而，如何制定一个解决这个问题的事先测试是值得怀疑的。因此，更现实的做法是承认数据的动态性质，一旦可链接性成为可能，匿名数据就会成为个人数据，控制者有监督义务，必须在适当的时候采取技术和组织措施。

（4）个人数据给谁？

为了确定信息是否构成个人数据，重要的是要知道应该从谁的角度来评估识别的可能性。GDPR序言第26段规定表明，仅从控制者的角度评估可识别性是不够的，还可能包括任何其他第三方。

目前存在一个非常明显的灰色地带，数据控制者可能认为数据集是匿名的，但有动机的第三方仍将能够从发布的信息中识别出至少一部分人。研究还指出，当数据控制者无法识别时，这并不意味着对手将无法识别数据。另一方面，采用绝对方法可以有效地排除匿名数据的存在，因为最终总会有人能够将数据集与可能重新识别它的附加信息结合起来。

（5）客观的还是主观的方法？

此外，还不清楚应该从谁的角度评估被识别的风险。GDPR序言第26段预计，应考虑对时间和财政资源的“合理”投资，以确定是否可以识别特定的自然人。

数据的特性是上下文相关的，因此个性化（personalization）不应被视为数据的属性，而应被视为数据环境的属性。此外，采用何种标准是合理的尚不明确，特别是是否需要考虑到有关行动者的具体能力。

此外，还不清楚应该采取客观的还是主观的方法。主观的方法将需要考虑一个人所知范围内的所有因素——特别是谁能够访问相关数据，从而进行身份识别。但是，客观的方法将需要更广泛的评价，包括现在谁能取得资料，将来谁可能取得有关数据。

（6）数据使用的目的

最后，第29条工作组强调，在确定个人数据的性质时，关键是评估“数据控制者在数据处理中所追求的目的”。事实上，“在处理的目的正是为了识别个人的情况下，辩称个人是不可识别的，这完全是自相矛盾的”。根据这一推理，用于识别自然人的公钥或其他类型的标识符构成个人数据。

在介绍了个人和匿名数据分类的一般不确定性之后，现在我们将看到，正在进行的技术发展使得数据的法律定性更加混乱。

4、技术发展和个人数据的定义

随着性能更强的数据分析技术和硬件的出现，以及数据点的高度可用性，将数据与自然人联系起来变得越来越简单了。即使表面上是匿名的数据也可能随后与其他数据点相匹配。

鉴于上述情况，可以说GDPR第26段规定的基于风险的匿名化方法是区分个人和非个人数据的唯一明智的方法。

5、GDPR下的假名数据概念

假名化是只有在额外信息的帮助下才能将数据归属于数据主体。这强调了假名化的数据仍然是个人数据，这与工作组的结论一致，即假名化不是一种匿名化的方法。它只是减少了数据集与数据主体的原始身份的联系，因此是一种有用的安全措施。

二、标识符替换的技术方法

不同的技术方法可用于从数据中删除与自然人的明确联系，这些方法在重新个性化的可能性方面有所不同，作者提出了取代数据集中明确标识符的不同既定模式。

四种可能的重新识别方法可以描述如下。

1.从已知的人开始

2.从内容开始

A.基于ID的重新识别

根据约翰·史密斯已知的身份，找到所有他参与其中的交易

根据已知的所有被考虑的人的id，查找参与X交易的人

B.基于内容的重新识别

通过将约翰·史密斯交易数据与他已知的银行账户历史进行匹配而参与其中

通过将交易数据与所有需要考虑的人的银行账户历史进行匹配，找到交易X中涉及的人

根据不同的去个性化模式，成功重新个性化的可能性在这四种方法中会有很大的不同。因此，下文简要地介绍了几个既定的去个性化模式，并讨论了每个模式各自的可能性。

1、模式1：传统的假名化

这是实现假名化的传统方式。它主要包括用一个随机数替换数据点中代表明确标识符（身份证号码或姓名与出生日期的组合）的那些元素，并创建一个单独的表格，将这个随机数与明确标识符相匹配。这导致原始数据集被分割成两个独立的数据集，可以以不同的方式存储和处理。如果不访问假名表，来自交易数据集的数据本身并不允许直接识别数据主体。

除了访问假名表，人的相关度也可以来自于访问其他数据，通过内容匹配（从交易或人开始）帮助重新识别假名的交易。这种方法成功的可能性很难事先估计，因为它取决于现有的数据。

2、模式2：基于哈希ID的替换

从数据中去除与数据主体的明确联系的一种独特方式是用这些数据的哈希值取代数据中代表明确标识符的那些部分。

由于哈希函数是不可逆的单向函数，明文ID和替换之间的映射仅由散列函数定义。了解存储的哈希值背后的数据主体的可能的方法是：1）尝试所有可能是原始明文值的身份，应用哈希函数，然后检查结果是否匹配（“暴力破解”（brute forcing））；2）根据与其他数据的推理来识别。两种方法的成本都很高。

为了避免暴力破解，以及不同数据集之间固有的、基于哈希的互联性，两种额外的做法被广泛使用，称为“盐化”和“胡椒化”。

3、模式2a：基于哈希值的ID替换与“盐化”和“胡椒化”的哈希值

“盐化”和“胡椒化”是广泛用于基于哈希的密码存储的两种技术。在这两种情况下，在应用散列函数之前，会将额外的数据添加到纯文本数据中，添加的数据在不同的情况下是不同的，因此产生的哈希值也不同。

“胡椒化”是指在一个特定的环境中（如密码数据库）对每个散列使用一个额外的、秘密持有的数据，使得相同的输入数据（密码）不会在不同的数据库中产生相同的散列。这阻碍了对密码数据库的暴力攻击。

“盐化”则是对每个条目使用不同的附加数据，因此用户1的密码所附加的数据与用户2的密码所使用的不同。当产生的哈希值与这些用户特定的“盐化”数据一起被泄露时，“盐化”能确保拥有相同密码的两个用户拥有不同的密码哈希值，从而避免了仅根据存储的哈希值就能识别密码的相似性。

4、模式3：内容哈希

即使标识符、数据和数据主体之间的明确联系被从数据集中删除（或充分混淆），自然人仍然可以在内容数据的基础上被识别。

当需要校验和功能来确保数据完整性时，内容哈希被广泛使用，如数字签名。哈希也可用于验证文档的完整性，因为任何更改都会导致不同的哈希值。除了在数字签名中的应用，内容哈希可以在不透露数据本身的情况下某个数据集的存在。例如，如果我们的交易系统允许参与者证明他们参与了一项交易，那么它可以获取整个交易数据后创建一个可以公开发布的哈希值。获得交易数据的第三方可以对交易数据进行哈希计算，并将结果与公布的哈希值进行比较，以证明该交易数据确实存在于交易系统中。

三、区块链上的个人数据

链上数据何时以及在何种情况下被定性为个人数据？本节作者将讨论：①传统上存储在区块链上的哪些类别的数据可能是个人数据，②不同的去个人化方法的影响，以及③对区块链应用的设计和实施的相关影响。

情境一——货币交易

简单案例：未改变的地址

为了确定区块链交易数据是否是个人数据（以及对谁而言），我们假设所有交易都是通过一个公共区块链进行的。在这里，余额被赋予（保存）在地址中。一个地址可以被认为是属于由特定用户随机生成的私有-公共密钥对的公钥。用户在钱包中创建和管理他们的地址。

在区块链上公开存储和确认的交易指定了地址之间的转移，意味着用户也可以在一个人持有的不同地址之间转移金额。这可以通过各种方式进行。

这种方法的缺点是，每一个能够将一个地址与一个自然人联系起来的人都可以将该地址的所有其他交易重新人格化。基于ID的重新人格化，它也能以最小的努力识别这些人用同一地址进行的所有其他交易。

在我们的例子中交易数据并不明显与自然人相关，而是与标识符（地址）相关。因此，该标识符是传统意义上的假名。为了决定公共区块链上的交易数据是否是个人数据，我们必须评估这些地址是否有可能被解析。这种评估对不同的人导致了不同的结果。有了额外的订单信息（特别是送货地址），外卖服务能够以合理的努力破解假名，也使所有其他提到的交易数据从该服务商的角度来看成为个人数据。

一般情况：一次性地址

为了抵消容易重新个性化(re-personalization)的影响，大多数钱包应用程序使用了不同的使用方案。它建立在可以随意生成任意数量的新地址它建立在新的地址的事实之上。新创建的“影子地址”被用作后续交易的来源。

因此，同一行为人进行的货币交易并不是来自同一个地址，而且来源和新创建的变更地址之间的关系是无法通过其他方式（如可逆推导功能）发现的。这些方法被用来进一步混淆特定交易和其参与者之间的关系。

然而，基于内容的重新识别可能揭示公开可见的交易与自然人之间的另一种非基于身份的关系。通过基于内容的聚类和基于ID的再识别，能够将一个聚类地址与一个表示相匹配的一方进行重新识别。研究表明，进行这种分析的必要努力和资源并不困难。因此，对于任何能够将一个这样的地址与一个人的身份联系起来的一方来说，这种重新识别非静态地址的交易被认为存在合理的可能性，尽管它总是受到某种程度的不确定性的影响。

情景2--基于身份的公证文凭

大学毕业后提供防篡改的电子公证。公证的概念是为了让未来的潜在雇主能够轻松验证申请人的证书。此案例依赖于区块链数据管理的优势。这些数据最初可能是个人数据，但这并不一定意味着存储在区块链上的数据也是个人数据——这取决于用例的实际实现。

我们假设所有与学历有关的数据都以明文形式存储在公共区块链上这个数据集包含了识别简和大学的数据、她的学位等信息。为了证明文凭的真实性，大学通过从上述所有数据中创建一个哈希值，用只有大学知道的私钥对这个哈希值进行加密，并将结果添加到数据集中，从而增加了数字签名。当申请工作时，雇员将自己的文凭ID交给雇主，雇主可以从公共区块链中检索文凭数据集，来验证其真实性。

这些数据通过学历持有人相关的信息明确地与学历持有人本人相联系。该数据在区块链上也是公开可用的。因此，从任何任意一方的角度来看，它都是个人数据。

高级案例1：基于哈希的假名

可以使用基于哈希的假名，而不是明文标识符。

正如我们在最初对基于哈希的假名的解释中所划定的那样，将这种数据集写入公共区块链将消除文凭数据集和自然人之间的直接联系。然而，通过基于哈希的假名，仍然存在间接联系。因此，为了确定数据是否是个人数据，我们必须考虑通过哈希的姓名或公民身份的重新识别是否有合理的可能性。

从已知ID开始的再识别角度，任何一方都可以对所有潜在的文凭持有者的名字或公民身份进行哈希计算，并将这些与哈希计算后的名字或ID进行比较。这样的重新识别也必须被认为是合理的可能性。对于基于哈希值的普通假名化，文凭数据的重新个性化必须被认为是合理的可能性。

基于内容的再识别也必须被考虑。数据集可以根据她参加的课程组合来识别。因此，基于内容的重新识别从一个已知的人和她所学的一些课程开始，不会被ID替换方法所阻止。

高级案例2：链外内容在链上认证

即使有意识地实施基于哈希的文凭数据假名化可能因此避免基于ID的再识别，但基于内容的再识别仍然是一个问题。为了避免这个问题，最后，基于区块链的文凭公证也可以按照上面规定的内容哈希模式实施。这种模式比以前的解决方案要好。在公共区块链上没有写入有意义内容的数据，只有一个文凭ID和一个由大学签名的内容哈希。了解文凭持有者的唯一可能方式是对文凭数据集的所有可能内容进行暴力破解。

如果文凭数据集只包含姓名、学位和最终成绩，那么这种方法就特别有问题。对于一个给定的名字，尝试所有可能的成绩的努力是微不足道的。

因此，即使是哈希值本身也必须被认为是个人数据，因为它允许仅仅通过对有效内容的所有可能的组合进行暴力破解来偏离关于自然人的信息。随着更多的内容被纳入，从而增加了可能的参数空间（例如，所有参加过的课程和各自的成绩），这个问题会减弱，但仍然不会消失。

在区块链上只存储足够盲目的文凭数据的哈希值，以允许未来的雇主验证提供给他们的链下数据的情况下，存储在区块链上的哈希值因此可能不被视为个人数据。然而，只有当原始数据的可能参数空间足够大时，才会出现这种情况。

四、结论：作为风险管理的匿名化

上述分析表明，GDPR采用了基于风险的方法来确定数据是否符合个人数据的条件。如果数据能以合理的可能性与自然人相匹配，它就有资格成为个人数据，并属于GDPR的适用范围。然而，我们也看到，第29条工作组接受了一个不能容忍任何识别风险的平行测试、各个法院和监管机构的进一步声明介于这两种方法之间，这些清楚地强调了各主体在适用的法律测试方面缺乏共识，从而威胁到整个欧盟数据保护法的统一应用。

对两个具体的区块链使用案例的分析证实，几乎不能排除表面上匿名的数据被转化为个人数据。最后一节以这些困难和分歧为出发点，论证了适用于匿名化的唯一现实的测试是基于风险的方法，这一点在GDPR的文本中已经明确。

风险的确定和管理是数据保护法中的重要概念。这是数据保护法所固有的一些因素的逻辑结果。首先，基本权利不是绝对的，而是必须与其他人的权利和自由相平衡。然而，如果想提供绝对的保护，任何个人数据的处理都将被取缔。第二，GDPR本身强调，虽然数据保护是它追求的一个目标，但它也追求"加强内部市场经济的融合"的目标。

下面，我们认为，首先，根据GDPR基于风险的总体方法，在匿名化方面应该采用同样的方法。其次，替代方法将导致不可能应用这一法律框架。

1、基于风险的匿名化方法和作为风险管理的数据保护

风险应该被看作是欧洲数据保护法的一个核心概念。

匿名化可以被塑造成一种减少数据处理对个人权利和自由产生的风险的手段。研究已经充分显示，从来没有绝对的匿名化形式，识别的残余风险永远无法排除。

在决定数据是否属于个人数据时，要纳入风险的概念，我们需要确定——至少在数量级上——成功重新识别所需的时间和金钱。

风险也很适合处理数据保护法的技术发展。例如，这一概念有助于理解大数据分析中的数据最小化和目的限制等核心概念因此，这一概念也可以用来解决由于技术进步而导致的识别风险的变化。

2、基于风险的方法的替代方案：系统变革

研究已经充分强调，匿名化从来都不是绝对的。如果法律坚持它必须是绝对的，那么唯一合乎逻辑的结论是，曾经是个人数据的数据只能被假名化，而不能被匿名化。

鉴于信息和通信技术的最新发展，完美的匿名化已经变得不可能，因为匿名化总是存在理论上或实际的限制。因此，Ohm他呼吁废除数据保护和隐私法中个人和非个人数据之间的区别。

如果我们将这一推理移植到欧盟的数据保护法体系中，GDPR所确认的假名和匿名信息的概念就需要被废除，这实际上会导致数据保护法的核心被深刻修改。除此之外，这是否会产生理想的实际效果也是值得怀疑的。一方面，人们可能会认为，所有曾经是个人的数据仍然是个人的，因此要受到GDPR的保护。但另一方面，数据控制者将不再有动力将个人数据转化为匿名数据，这对数据保护是不利的。

因此，匿名化的激励功能不应该被忽视，因为它可以成为一个强大的工具，鼓励数据控制者以最友好的方式进行数据保护。

■推荐阅读：

个人信息概念｜从知道姓名到个体化：GDPR下识别的含义

Frederik教授：“假名化信息”是个人信息吗？

翻译：苏博晖

指导：易舒云

审核：黄昊

编辑：苏博晖

声明：本文来自网络西东，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

那些不能被识别的人：根据《一般数据保护条例》区分个人和非个人数据

网易云阅读等30款App因个人信息收集使用问题被中央网信办通报

车牌监控摄像头可扫描识别和关联手机、AirPods和智能手表

因指纹考勤系统数保评估(DPIA)存在重大缺陷，一跨国公司被罚40万欧元