2025年3月28日,英国信息专员办公室(ICO)发布了其匿名化指南,旨在帮助组织有效实施匿名化技术,确保个人数据在共享、发布或再利用时符合数据保护法(包括UK GDPR及《2018年数据保护法》),围绕匿名化与假名化的定义、技术方法、风险评估及治理框架展开。

匿名化的定义与边界

在数据保护法中,匿名信息是指与已识别或可识别的个人无关的数据(即非个人数据)。数据保护法不适用于匿名信息。匿名化是将个人数据转换为匿名信息的过程,使得个人不再可识别。

要理解匿名化,必须首先了解什么是个人数据。个人数据的认定标准强调直接或间接可识别性,涵盖从传统标识符到行为特征等多维度信息。匿名化是将个人数据转换为匿名信息的方式,使其不再属于数据保护法的范围。如果人们无法(或不再)识别,则可以认为数据已被有效匿名化。匿名信息则需达到无法通过合理手段重新识别的标准,这一判定需结合数据特征、技术手段及攻击者能力进行动态评估。特别值得注意的是,假名化数据仍属个人数据范畴,因其保留了通过密钥还原的可能性,这与完全匿名存在本质区别。“去标识化”的个人信息数据是指匿名化数据或被认为已经匿名化但考虑到所有可能合理使用的手段仍可重新识别的数据。指南通过案例说明,即使删除直接标识符,若特定属性组合仍可能通过关联外部数据识别个体,则不能视为有效匿名化。这种严谨的界定要求组织在实施匿名化时,必须进行多维度的风险评估。

指南提出,将个人数据应用匿名化技术转化为匿名信息的行为,算作处理个人数据。虽然最终结果(匿名信息)不受数据保护法约束,但该过程(匿名化)是受约束的。例如,当从个人数据中创建汇总的统计信息时,这些数据被视为“调整”或“修改”。法律将这些活动定义为“数据处理活动”,仍需遵守数据保护法的规定。

如何评估匿名化的有效性

匿名化是降低个人被识别或可识别的可能性,其具体表现取决于许多与特定环境相关的因素。可识别性是指能否以一定程度的确定性区分出一个人与其他人。即使不知道一个人的名字,这个人也可能被识别出来。如果信息可能会影响某个特定的人,即使不知道他们的名字或“现实世界”中的身份,他们仍然可以被识别或识别出来。指南指出,识别可识别性的关键指标包括单独挑选(singling out) 和可关联性(linkability),前者意味着可以在记录中识别出同一个人,或者从数据集中隔离与某个人相关的记录,后者是指将关于同一人或同一群人的多个记录组合起来的概念,可关联性有时也被称为拼图效应,指单个数据源可能不足以单独识别某人,但结合在一起可以识别出某个人。即使数据看起来已经去除了标识符,如果可以将其与其他信息结合并关联到某个人,那么这些数据仍然是个人信息。例如,来自社交媒体的数据,即使去除标识符不足以实现匿名化,也必须这样做以符合数据最小化原则(如果此类标识符不是必需的)。指南提出,常见的减轻可关联性的技术包括对关键变量(例如性别、年龄、职业、居住地、出生国)进行掩码化和标记化。

指南提出了“有动机的闯入者”测试作为评估匿名化有效性的方法,即模拟具备中等技术能力、资源支持且存在明确动机(如经济利益、社会关注或学术研究)的攻击者,通过综合运用公开数据源(如社交媒体、政府开放数据)、技术手段(如数据关联分析、算法攻击)及社会工程学方法,尝试破解匿名化数据集以重新识别个体身份。测试要求机构假设攻击者可能利用所有“合理可行”的手段(非理论极端情况),重点验证匿名化后的数据是否仍存在可被利用的间接标识符组合(如罕见属性、时空特征)、是否可能通过外部数据补全形成“拼图效应”,以及技术防护措施(如泛化阈值、噪声强度)能否抵御此类攻击。测试结果直接决定数据是否达到法律要求的“识别风险足够低”标准,是证明匿名化合规性的关键证据链环节。该测试可以由组织内部对该领域有足够知识和理解的员工进行,如果需要确定更复杂的数据集与公开数据(例如统计数据)匹配的可能性,则可以考虑具有入侵测试或道德黑客经验的外部组织。

有哪些匿名化技术方法

匿名化技术主要有两种方法,一是泛化(generalisation),即通过降低数据的特定性。这会改变可能识别某人的信息,使其与多个人相关,这意味着该群体成员无法被识别或不再可识别;二是随机化(radomisation),可以用来降低记录与特定个人相关联的确定性,这会改变可能识别某人的信息,使其无法明确归因于某个人。此外,掩码(masking)也可以通过删除或抑制某些值或数据记录来降低可识别性。虽然掩码在与泛化和抑制一起使用时可能有效,但它本身不被视为一种匿名化技术。

泛化(generalisation)是通过降低数据的精确性和粒度,将具体信息转化为更广泛类别的匿名化技术。其核心是通过分组或取整处理,使数据无法指向单一个体,例如将具体年龄(如24岁)转换为年龄段(20-30岁),或将详细地理位置替换为更大行政区域(如“伦敦”替代具体街道)。该方法旨在通过增加数据共享属性的人群基数,减少通过独特特征识别个体的可能性,同时维持数据整体统计效用。指南特别指出泛化与K-匿名性技术结合使用,确保每个数据组至少包含K个个体(如NHS标准设定K=5),以防止通过属性组合的“拼图效应”重新识别个体。但需注意,单纯泛化仍可能受背景知识攻击影响,需配合其他技术(如随机化)增强保护。

随机化(randomisation)是通过改变数据以降低个体识别风险的匿名化技术,主要包含三种方法:噪声注入(向数据添加随机值以模糊精确信息,同时保持统计特征)、差分隐私(通过数学保证添加适量噪声,确保个体不可区分)和置换处理(交换记录间的变量值以打破数据关联)。该技术通过引入不确定性削弱数据与个体的直接联系,例如在健身中心案例中,通过±5kg随机波动处理会员体重数据,既保留整体分布特征又防止精准识别。指南强调随机化需结合数据特性和使用场景,需谨慎控制噪声量级以平衡隐私保护与数据效用,且通常需与其他技术(如泛化)配合使用才能实现有效匿名化。

掩码(masking)是通过删除或抑制数据中的特定值或记录来降低可识别性风险的技术,例如移除直接标识符(如姓名、邮箱地址)或模糊地理位置信息(如保留邮编前段)。指南明确指出,掩码本身不能单独实现有效匿名化,需与泛化和随机化技术结合使用。例如,在零售案例中,掩码删除客户ID和邮编末位后,进一步通过年龄分段(泛化)和消费金额加噪(随机化),形成三重防护,确保攻击者无法通过单一或组合特征锁定个体身份。该技术适用于初步降低敏感字段暴露风险,但必须配合其他方法才能满足匿名化法律阈值。

有哪些假名化技术方法

指南总结,假名化技术通过结合密码学手段与组织管控措施实现数据安全保护,其核心方法涵盖三大技术路径。

其一,哈希处理采用单向加密算法(如bcrypt)对标识符进行不可逆转换,通过添加随机盐值或胡椒参数增强抗彩虹表攻击能力,适用于需要跨系统保持数据一致性的场景(如医疗记录跨机构共享),但需严格分离存储哈希值与原始映射表,并禁用MD5、SHA-1等过时算法以避免暴力破解风险。

其二,加密技术根据场景需求差异化实施:对称加密(如AES)依靠单一密钥实现高效内部数据流转,密钥生命周期需通过硬件安全模块(HSM)全程管控;非对称加密(如RSA)通过公私钥分离机制支持多方协作,确保外部机构可加密数据而仅授权方解密;格式保持加密(FPE)在维持数据结构(如保留身份证号位数规则)的同时完成加密,但需警惕算法强度不足导致的统计推断风险。

其三,令牌化则以随机生成的无意义令牌(如UUID)完全替代原始标识符,彻底切断数学关联性,尤其适用于支付卡信息(PCI DSS)等敏感领域,其核心控制点在于将令牌映射表独立存储于物理隔离环境,并实施基于角色的细粒度访问控制和全量操作审计。

在技术部署之外,指南强调组织控制措施的必要性。假名化数据必须与密钥、映射表等关联信息实施物理隔离存储,网络层面通过微隔离技术限制横向移动风险;同时需定期模拟"动机入侵者"攻击场景(如侧信道攻击、暴力破解),验证技术防护体系的有效性。值得注意的是,假名化本质上仍属于个人数据处理范畴,其有效性高度依赖技术路径选择与管控体系的协同作用。实施过程中必须通过数据保护影响评估(DPIA)量化剩余风险,并将密钥管理、访问日志、技术参数等纳入持续监控机制,确保在数据全生命周期内维持可靠的防护状态。

问责制和治理措施

指南强调,构建有效的问责制与治理体系需从顶层设计入手,建立覆盖流程规划、责任分配与持续监督的完整框架。组织应当设立由高级信息风险责任人(SIRO)领导的多学科治理团队,协同数据保护官(DPO)、技术专家与法务部门,系统规划匿名化实施路径。这一治理架构的核心在于明确权责边界:SIRO需统筹风险评估与资源调配,DPO负责确保处理流程符合GDPR要求,技术团队则专注于算法选型与工程实现,形成决策权威性与执行专业性的双重保障。

在风险评估层面,数据保护影响评估(DPIA)构成治理体系的基石。指南要求通过DPIA结构化记录匿名化决策逻辑,包括可识别性风险量化模型(如动机入侵者测试结果)、技术防护措施(泛化阈值设定、噪声注入强度)及组织管控方案(访问权限分级)。例如,在公共医疗数据发布场景中,DPIA需详细论证年龄区间划分对重识别概率的影响,评估地理信息模糊化程度与疾病研究数据效用的平衡点,并制定应急预案应对可能的拼图攻击。

透明度建设是提升治理公信力的关键环节。组织需主动向数据主体披露匿名化处理的目的与方法,特别是在数据公开共享时,应通过隐私声明明确告知数据使用范围与防护措施。以地方政府交通流量数据发布为例,不仅需说明已对车牌号进行哈希处理,还应公示数据接收方的使用承诺(如禁止逆向工程),并通过可视化工具展示匿名化后的数据特征分布,增强公众对数据处理安全性的直观认知。

人员能力建设直接影响治理效能。指南要求开展分层次培训计划:技术团队需掌握差分隐私参数调优、合成数据生成模型训练等前沿技能;管理层应理解匿名化法律边界的判定标准(如合理可能性原则);法务人员则需跟踪监管动态,及时识别法律解释变化对现有技术方案的影响。同时,应建立知识更新机制,例如每季度组织攻击技术研讨会,模拟最新重识别手段(如生成对抗网络攻击)以检验防御体系有效性。

动态风险管理机制是应对技术演进的核心保障。组织需建立匿名化效果年度审查制度,重点评估三方面变化:数据处理环境(如新增外部数据源可能引发的关联风险)、技术攻击能力(如量子计算对加密算法的潜在威胁)以及法律要求更新(如跨境数据流动规则调整)。在安全事件响应方面,需预设数据泄露场景下的控制流程,例如当匿名化数据集遭遇关联攻击时,应立即启动数据溯源分析,追溯泄露环节并实施密钥轮换等补救措施。

法律合规协同要求超越单一数据保护法视角。以金融行业客户行为分析为例,匿名化处理需同时满足《数据保护法》的隐私保护要求、《竞争法》对商业数据使用的限制,以及《消费者权益法》对数据分析透明度的规定。公共机构还需平衡《信息自由法》的数据公开义务与匿名化成本,例如在政务数据开放平台中,需建立分级发布机制,对高敏感数据集采用可信研究环境(TRE)进行受控访问,而非简单公开下载。这种多法规联动机制要求治理体系具备法律兼容性设计能力,确保技术方案在不同合规维度间取得最优解。

(本文在AI的参与下完成撰写)

参考资料:https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/data-sharing/anonymisation/about-this-guidance/

声明:本文来自数据信任与治理,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。