大基因信息及其大数据保护的挑战

本期推荐论文

Big genetic data and its big data protection challenges

作者：Paul Quinn; Liam Quinn

刊载于：Computer Law& Security Review

刊载时间：October 2018

主要内容：本文以欧盟GDPR的规定为例，说明当下的数据保护框架与大基因信息研究之间存在的种种冲突。作者指出，应当结合计算遗传学的具体背景，进一步探讨数据处理原则、数据保护影响评估，以及数据主体权利保护的要求。同时在明确同意的法律基础之外，还应当重视科研例外的适用。

背景

与早期对部分基因组的有限研究不同，当下的遗传学研究中，全基因组样本（GWS）的使用正变得越来越普遍。此外，研究人员可能会结合疾病状况、年龄、地理来源等各种形式的相关数据，辅助其分析。因此，基因组研究需要的数据量已经大幅增长，在“大基因信息”（big genetic data）的背景下，我们更需要遵守隐私保护，特别是数据保护类型的法律。

2018年5月，欧盟的《通用数据保护条例》（GDPR）在整个欧盟生效。本文以GDPR的规定为例，旨在说明当下的数据保护框架会给大基因信息的研究人员带来何种挑战。本文第2-4节简要介绍了“大基因信息”的概念与使用，并说明了基因信息的敏感性和难以实现匿名化的特点。第5-7节分别介绍了研究人员在遵循数据处理原则、进行数据保护影响评估和保护数据主体权利方面遇到的困难。第8-9节则讨论了知情同意和“科研例外”的法律基础。

如果以数据保护框架保护基因信息，那么基因信息必须满足两点，其一是能够识别到个人，其二是具有一定的特殊性或敏感性。对于第一点，有人认为可以采用匿名化的技术手段抹消可识别性。但作者指出，在大基因信息时代，研究人员在世界各地共享和访问数据的能力大大提高，同时计算设备的计算速度与算法的革新也快速提高了数据分析的能力。因此，人类能够越来越容易地将基因信息与特定个体联系起来，甚至识别那些曾经认为已经匿名化的样本。因此，基因信息的可识别性仍然需要法律框架保护。对于第二点，在GDPR生效之前，我们可能还需要探讨哪种基因信息会因反映个人健康状况而成为敏感信息。但目前GDPR已经直接将基因信息确定为敏感信息的一种，对其适用数据保护规则也势在必行。

立法与实践的冲突

首先，在数据保护的立法框架中，数据处理的原则十分重要。作者提出，在计算遗传学的背景下，有三条原则难以令研究人员遵守。其一是“目的限制”，即，必须为收集数据的预期目的而处理数据。但实际上研究人员很难辨别数据处理的确切目的和边界，因为在研究中，数据挖掘的目标可能是模糊的。例如寻找各种基因序列和物理现象之间的相关性时，研究人员是在寻找未知的未知数，因此数据挖掘本身就带有机会主义色彩。同时，随着研究的深入，研究目标可能因获得的新信息而不断变化，很难在一开始就精确概括研究目标。

“数据最小化”的原则与之类似。该原则要求收集者确保只收集必要的个人数据，从而降低数据主体受到隐私伤害的风险。然而，计算遗传学与绝大多数的大数据研究都依赖于数据的最大化。尽管有意义的发现可能仅有一小部分基因，但研究仍然需要使用整个GWS来进行。

“存储限制”也是数据保护的核心原则，它要求数据的存储期限不要超过必要时限，超过则应删除数据。但在计算遗传学等领域，研究项目在收集数据时通常无法明确规定持续时间，因为在分析初步结果后，研究项目可能会有进一步的发现，并获得额外资金，扩大其范围和持续时间。并且计算遗传学中许多形式的研究项目通常需要对原始数据集进行不间断的持续处理，在此基础上进行改进，因此也无法在扩大研究后删除那些看似无关的数据。

其次，GDPR的新要求之一是在许多情形下需要进行“数据保护影响评估”（DPIA）。但这种影响评估应该采取何种形式，评估哪些内容，目前仍存在很多不确定性。作者认为这个问题需要进一步关注。评估内容的“权利和自由”中包括个人伤害，也包括社会影响，需要从道德、法律、遗传学和社会学等学科中进行多学科视角的分析。评估形式上，鉴于研究项目的资源有限，可能无法聘请咨询公司或外部顾问专门从事DPIA。作者认为需要在研究机构内建立一个特殊单位，使各研究组之间共享资源。

最后，数据主体权利的保护也给研究造成许多阻碍。典型的例子包括信息知情权、访问权和被遗忘权。数据主体需要了解所有数据控制者的身份、预期处理的目的、处理的法律基础等等，但这些信息时常变动。此外，研究中通常会对数据进行假名化，或直接生成汇总数据，如果数据主体要求访问或删除其基因信息，研究人员可能很难识别数据主体的确切身份。

数据处理的法律基础

在立法上，需要通过某些潜在的法律基础证明数据处理的合理性，而GDPR的规定中也明确了两种法律基础：已获得数据主体的“明确同意”，或根据成员国法律因“科学或历史研究目的或统计目的”进行数据处理。作者将后者称为“科研例外”。

根据GDPR的规定，只有在不适用明确同意的“必要”情形下才允许适用科研例外。因此明确同意通常被认为是科研人员的“默认选择”。但本文作者认为，同意的要求并不适用于所有情形，特别是存在大量GWS或相关数据的情形。因为同意的三个核心要求，即明确、具体和知情，都会给研究带来许多问题。例如，为了同意的明确和具体，必须向数据主体通知充足信息，但正如前文所述，许多信息很难在最初确定。研究人员仍然需要在具体科研背景和同意的要求之间做出平衡。

“科研例外”的法律基础，本质上则源于“公共利益”。适用科研例外的最重要的优势是不必获得同意，这为许多难以向所有数据主体征求同意的研究减轻了负担。例如数据主体已经死亡、数据主体是未成年人或无法给予同意的情形，还有从旧有的实验或健康记录获取数据，从而难以定位数据主体的情形。

由于大数据分析以及研究数据的重复使用和共享已经越来越普及，GDPR似乎也意识到“科研例外”的重要性，并要求对科学研究概念作广义解释，使其不仅适用于大学等公共机构的研究，也适用于私人和商业实体。尽管如此，根据GDPR规定，适用科研例外还需要符合成员国法律中明确规定的情况，并满足必要性、比例性，实现与公共利益相关的目标。因此整个欧盟的此类规定都难以达成统一。

此外，许多监管机构和伦理机构的立场也产生了极大影响。尽管GDPR规定了科研例外，但此类机构似乎更倾向于坚持让研究人员获得同意或使用匿名数据，甚至会提出比欧盟或各国法律更加苛刻的同意要求。作者强调，伦理机构或其他类似实体的立场可能至关重要，因为根据国家、地方或部门法规，他们可能在批准相关提案方面拥有最终决定权。

结论

目前，以GDPR为基础的欧盟数据保护框架已经适用于基因信息的处理，但其中仍有许多规定与计算遗传学的研究要求相冲突，特别是在数据最小化和存储限制的原则方面。同时，在GDPR为研究人员提供的两种法律基础中，科研例外仍然没有得到应有的重视。学界及伦理机构应当结合具体的研究背景，继续深入探讨这一问题。（王玥王潇莹）

声明：本文来自信息安全法律评论，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

大基因信息及其大数据保护的挑战

供应商泄露上千万用户数据，甲方赔偿超2.3亿元

破产也逃不掉！知名企业因数据泄露赔偿超3亿元，中国用户有望获赔

国家卫健委印发《紧密型县域医共体医学影像中心建设与服务指南（试行）》等4项指南