清华大学交叉信息研究院 徐葳

华控清交信息科技(北京)有限公司 王云河 靳晨

清华大学五道口金融学院 何昊青

· 引言·

近年来,我国相继发布了关于推动数据成为生产要素的系列政策文件,数据生产要素化上升为国家战略。与此同时,为防范数据开发利用过程中的信息泄露及滥用风险,我国先后颁布了《网络安全法》、《数据安全法》,并正在加紧制订《个人信息保护法》等法律法规,对数据安全保护提出了明确的法律要求。在推动数据要素化发展和加强数据安全保障并行的背景下,金融作为数字化程度较高的行业,积极探索隐私计算等新兴技术方案,不断完善相关顶层设计,为加强金融数据安全治理、促进金融数据规范流通提供指引和支撑。

虽然隐私计算等技术产品的应用目前还处于初期阶段,但发展十分迅速。在缺少统一接口规范的情况下,不少金融机构和科技公司已在隐私应用案方面进行了多样化的探索,并部署了隐私计算平台。不同的平台之间往往存在着较大的技术差异并且不完全兼容。在可预见的将来,数据要素将在全国范围内广泛流通,金融机构对多方数据融合计算的需求也日益增加。如果隐私计算平台之间不能实现高效互联互通,将无法充分地满足多方数据安全融合计算的需求;这可能成为激发数据要素潜能、推动金融数字化转型的瓶颈。

目前,行业虽然对隐私计算平台间实现互联互通有了较高呼声,也有了初步的实践和探索,但笔者认为目前的探索还是小规模、个性化的“抱团”现象;不同的平台或“团体”之间是否能够真正实现广泛的互联互通值得推敲。本文着眼于整个金融行业的数据要素流通,基于当前热度比较高的多方安全计算、联邦学习等隐私计算技术的应用现状和互联互通情况,参考成熟的互联网体系架构,提出隐私计算平台互联互通的一些基本设计思路和建议。

二、隐私计算平台互联互通的内涵

初看“互联互通”字面,金融机构可能有一定的困惑,既然已经实现了“多方”计算或者“联邦”学习,为何仍然需要“互联互通”?一个平台内部不同参与方之间的“互通”,究竟与不同平台间的“互通”有什么区别?

(一)基于隐私计算的数据流通平台

一个基于隐私计算的数据流通平台(后文简称隐私计算平台)一般是基于某种信任机制被组织起来,且具有一定的自治权利。这些权利一般包括:

  • 自主选择成员,并可进一步通过平台的扩展吸纳新成员或退出已有成员;

  • 按照已有的上位法律法规、政策、标准等制定适合平台内的数据流通规则;

  • 接受某一个或多个监管方的监管;

  • 根据所从事的业务类型选择某一种或多种隐私计算技术。

(二)目前互联互通的认识误区

要实现不同隐私计算平台间的互联互通,首先应该保证每个平台自治的权利。但目前业界对跨平台互联互通存在一些误解,例如:

  • 让一个数据源加入多个平台。一个数据源在多个平台上注册,实际上与数据跨平台互联互通没有关系。

  • 让一个平台管理另一个平台的用户,或者说进行平台收编。这又不符合自治的原则。

  • 让一个平台上的原始数据直接流通到另一个平台上去。这种形式等同于第一种理解。

(三)互联互通的内涵

类似于隐私计算在单平台上实现了“数据可用不可见,用途可控可计量”(即在分享数据使用权的同时保证原始数据不泄露,并且可以控制数据的具体用途用量),平台之间的互联互通是把一个平台上数据融合的中间结果(也称计算因子,参考《JR/T 0196-2020 多方安全计算金融应用技术规范》)跟另一个平台上数据融合的中间结果进行再次计算从而获得进一步融合的计算结果。在这个过程中,需要同时保证每个平台上的原始数据不对外泄露,而且平台自身仍然各自对自己的数据源保持控制权。

这时候一个平台就相当于单个平台内的一个数据提供方,它提供的计算因子反映了自身平台上数据的某种特定使用方法。同样,这种基于计算因子的数据流通,也应遵循数据提供的“最小化”原则。不同隐私计算平台间的互联互通应该能够通过链接多个平台,让数据源有机快速增长,通过分散式协作降低数据中心化汇聚造成的额外数据安全风险和平台的责任,并鼓励不同的实现路径,推动隐私计算技术的百花齐放。

(四)当前互联互通的操作难点

当前,实现跨平台互联互通的难点在于各平台自治而带来的异构性。例如,各平台的信任基础不一样(包括对管理方法的信任和对技术方法的信任),平台之间的身份认证体系不统一,以及各平台使用的技术方案和技术原理不相同等。另外,考虑到目前市面上已有众多不同的隐私计算产品;它们是金融机构和科技公司相互合作的实践成果,已建立了管理、技术和商业模式上的信任共识,并已开始逐步进入金融机构的日常业务活动。

跨平台互联互通的前提,不是改变已部署平台的这种信任共识,更不是替代已有平台,而应是一个在已有平台上叠加可管可控的跨平台功能,实现数据跨平台时的“可用不可见”和“可控可计量”。从技术的角度看,跨平台的互联互通,实际上可以认为是隐私计算平台的一种递归式的扩展。

三、隐私计算平台互联互通设计思路

从人类已有的信息科技发展历程来看,互联网(Internet)可以说是当今世界上最成功的技术架构之一。互联网使用一组体系化的协议将设备与设备、网络与网络连接起来,造就了世界上范围跨度最广的应用案例。笔者认为,互联网中的相关设计理念与本文讨论的跨隐私计算平台的互联互通问题有着高度的契合性,主要包含了控制面和数据面两大类协议设计思路。

(一)控制面:自治系统与边界网关协议

互联网发展初期面临大量不同类型设备或独立网络之间的互联问题,与隐私计算平台的异构性类似。在互联网路由协议中,对于被统一管理、采用相同通讯策略的集合,视为一个自治系统(Autonomous System,AS)。每个自治系统可自主决定其内部允许连接哪些设备、采用哪种底层网络技术和路由策略,实现“自我治理”,而对于自治系统之间的连接则采用外部路由协议--边界网关协议(Border Gateway Protocol,BGP)。BGP是一种提供AS间路由选择的协议,它本身不主动发现AS内部路由,而是在确定最佳路径时侧重于根据不同属性控制数据流的传输。

参考互联网路由协议的设计思路,每个隐私计算平台也可被视为一个AS,平台内部各方依据自治原则协同执行内部计算任务,平台之间的相互连接通过统一的、兼容并包的外部接口(可将其称为跨域数据交换Inter-Domain Data Exchange,IDDE)来实现,这样既保证了每个平台的内部自治,又能统筹各个平台的资源,协调完成隐私计算任务。

(二)数据面:层次化设计与“沙漏”模型

层次化设计是互联网协议中最常用的思路,而TCP/IP协议(Transmission Control Protocol/Internet Protocol)则是其中的典型案例。TCP/IP协议的核心在于中间的传输层和网络层,也就是通过TCP、UDP和IP等一组轻量、精巧的协议,向上服务于HTTP、FTP、SNMP、DNS等多种多样的互联网应用协议,向下将IP包通过网络路由器的处理,转换和重新封装到各种底层网络系统的物理帧中,支持光纤、电缆、无线、卫星等不同的通信传输方式,整体上呈现为一个“沙漏”状结构。

而隐私计算平台在实现上一般也是层次化结构的,不同的隐私计算平台在顶层应用和底层技术上的选择都是多样化的。其中,顶层覆盖金融行业常见的隐匿查询、隐私求交、联合统计、联合建模等丰富的应用层算法,并针对银行、保险、信托等不同业务线被应用于智能风控、精准营销、信用认证等多种应用场景。而底层则包括各类不同的隐私计算技术,例如沙箱、多方安全计算、联邦学习等。但无论是什么技术,其目的都是为了流通数据特定使用方式(即暴露信息最小且能实现数据融合计算的计算因子)。因此,笔者认为可以针对“沙漏”中的瓶颈,通过设计和构建“隐私路由”来完成计算因子在不同应用和技术中的相互转换,从而连接顶层多样的应用场景和底层丰富的技术类型,见图1所示。

图1 “沙漏”模型示意图

(三)控制面与数据面解耦设计

综上所述,从“控制”和“数据”这两个切面来考虑,实现隐私计算平台间的互联互通。其中,控制面负责资源管理、安全管理以及任务管理等工作,具体包括资源目录同步、计算合约达成、跨平台身份认证、密钥管理、任务执行调度与流程管控等。而数据面则依照计算合约,执行数据、算法等资源的接入、同步和格式转换,协同、高效地完成计算任务。这里,数据面和控制面协议之间在技术实现上应该可以是完全解耦的,在保证互联互通的情况下,应允许采用不同的设计思路和实现架构,从而降低实现难度,避免技术垄断,促进技术多样发展和高速创新,见图2所示。

图2 控制面与数据面参考示意图

四、结论及建议

上述分析是数据平台实现大规模互联互通的整体思路,推动它的落地需要统一的标准化体系和检测认证体系,在规范、合规的基础上推动数据广泛、有序流通。

(一)循序渐进推动互联互通标准化工作

从数据流通的角度展望,互联互通无疑是未来发展趋势,但在技术实现层面,还需要经过时间和应用的打磨和考验。因此,标准化工作也应该依据技术研发演进和监管要求的发展,循序渐进地向前推进,建议先定义关键技术核心层技术要求,积极支持研究开源开放的跨域数据交换协议(IDDE)技术框架,再根据实际应用情况不断向顶层和底层拓展,逐步构建一整套互联互通的标准体系。

(二)依据标准建立隐私计算平台互联互通检测认证体系

在编制互联互通标准、统一设计思路的基础上,如何界定一个隐私计算平台具备互联互通的能力,同样需要一套规范且权威的评价办法。建议依据相关标准要求,建立互联互通检测平台和认证体系,明确能力评估流程和方法,为金融机构使用隐私计算平台提供选型依据,同时不断提高金融行业数据流通水平。

(三)建设数据流通网

发改委于2020年发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》,指出“加强跨部门、跨区域、跨层级的数据流通与治理”,在优化数据中心布局时应“推进网络互联互通”。根据《指导意见》,今年制定的《全国一体化大数据中心协同创新体系算力枢纽实施方案》,把“加快网络互联互通”作为建设国家枢纽节点的重点任务之一。因此,隐私计算平台互联互通的目标不是构建几个平台或者几个金融机构之间的“局域网络”,而是要成为面向全行业、全国构建“数据流通网”的基础设施。

依据互联互通的设计思路,隐私计算平台(自治系统AS)之间可通过统一的IDDE相互连接、组成隐私计算网络。而从外部看,每个隐私计算网络自身又构成了一个自治系统AS,网络与网络间也可以通过IDDE再次组合起来。由此可见,金融行业各隐私计算平台之间能够相互组合、不断扩展,隐私计算网络不断迭代、有机生长,为响应国家政策号召、建设国家级数据流通网迈出标志性的一步。

声明:本文来自华控清交,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。