文 | 首都医科大学附属北京中医医院 韩伟

2024 年 9 月 21 日,中共中央办公厅、国务院办公厅发布《关于加快公共数据资源开发利用的意见》,明确提出“加强数据基础设施建设,推动数据利用方式向共享汇聚和应用服务能力并重的方向转变”。原有的数据基础设施主要满足单一组织的数据存储、管理和本地处理需求,重在安全可靠。在数字经济背景下,数据基础设施作为经济发展的重要支撑,关注数据的流通、安全和跨行业共享,支持创新应用和高效的数据利用。

一、可信数据流通基础设施的定义

根据《国家数据基础设施建设指引》,国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。其核心功能包括数据存储、管理和本地计算,通常用于支持单一企业或组织的业务运营,确保数据的安全性、可靠性和可用性。

在数据要素时代,可信数据流通基础设施是基于“连接+算力+能力”的信息服务体系,结合隐私计算、区块链等核心技术,构建下一代跨行业、跨区域、跨领域的数据流通基础设施。其目的是实现数据的“可用不可见”,在保障数据安全的同时,充分挖掘数据要素的价值,促进数据要素全面融入实体经济,助力国家数字化转型发展。

可信数据流通基础设施包含三个部分:数据中心、数据流通交易平台以及加密技术。数据中心作为数据存储和处理的核心设施,是数据流通基础设施的重要组成部分。它需要具备高效的数据存储、计算和分析能力,支持大规模数据的汇聚、处理和分析。此外,数据中心还应采用先进的数据安全技术,如数据加密、访问控制和备份恢复策略,确保数据在存储过程中的安全性。

数据流通交易平台是实现数据交易的关键设施。平台应采用多方安全计算、联邦学习等隐私保护技术,确保数据在交易过程中的隐私性和安全性。构建此类平台时需考虑技术、安全、用户体验和信任机制等因素。平台应采用区块链技术,确保交易的透明性和不可篡改性,并支持智能合约功能,以实现高效的数据交易执行。

加密技术是保障数据流通安全的重要手段。2024 年 1 月,国务院办公厅印发的《要素市场化配置综合改革试点总体方案》中特别提到,要建立数据要素流通规则,探索“原始数据不出域、数据可用不可见”的交易范式,以“数据可用不可见”的形式保障数据安全的隐私保护计算将成为数据交易的破局之道。隐私计算技术是密码学、区块链、数据科学及计算芯片等领域的交叉融合,能够在数据处于加密状态或非透明状态下进行计算,从而实现各参与方隐私保护的目的。

二、可信数据流通基础设施演进

在数字经济浪潮下,可信数据流通基础设施的演进推动数据流通从局部封闭走向全域开放。传统的公文审批与道德约束的数据流通与共享模式难以满足跨组织、跨行业的数据共享需求,而技术驱动的可信数据流通范式通过密码学、区块链、隐私计算等手段,构建了安全、透明、高效的数据流通设施。这一演进解决了数据来源、使用范围和流通过程的可信性问题,推动了数据要素的市场化配置与价值释放。同时,可信数据流通基础设施建设支撑了更复杂的生态体系,汇聚政府、企业和社会多方力量,构建起协同治理新模式。政府引导监管,企业创新探索,社会参与推动公平透明。总体来看,可信数据流通基础设施的演进体现在三方面:一是技术信任取代合约信任;二是可信数据空间与全链路审计的演进;三是生态体系与创新政府与市场协同的构建。

(一)从合约信任到技术信任的转变

传统的数据安全依赖于基于传统公文审批与道德约束的合约信任,但随着数据流通范围的扩大,这种信任模式面临诸多挑战,如责任主体不明确、利益诉求不一致等问题。为此,业界通过引入密码学、机密计算等技术手段,着力构建全流程的数据可信流通体系,确保数据来源可确认、使用范围可界定、流通过程可追溯和安全风险可防范。数据流通基础设施包括支撑数据交换、流通、智能计算和共享的生态系统,强调跨组织、跨行业的数据共享和合作。数据流通基础设施的核心功能包括大数据实时流通、智能分析和应用支持,以适应复杂的网络环境和实时响应需求。通过技术安全创新支持大规模、分布式的数据流通,数据管理上强调数据治理、数据标准化和跨部门、跨行业的数据共享。

(二)构建可信数据空间与全链路审计

可信数据空间是一种基于共识规则连接多方主体,实现数据资源共享共用的数据流通基础设施。它不仅是数据要素价值共创的应用生态,更是支撑构建全国一体化数据市场的重要载体。可信数据空间通过标准化的技术能力,如数据沙箱、智能合约和隐私计算等,保障数据的安全流通与价值共享。相比之下,传统的数据流通基础设施侧重于网络防火墙、物理安全和访问控制等内部保护机制,主要防范外部入侵和内部泄露风险,隐私保护措施相对简单,仅需符合传统的安全合规要求。但在数字经济背景下,数据流通基础设施引入了机密计算、零知识证明、差分隐私、同态加密等先进技术,以适应跨地域和跨组织的数据流通安全需求。此外,全链路审计作为确保数据流通安全的重要环节,覆盖从原始数据到衍生数据的全过程,并通过能力预期平衡安全要求、功能复杂度和单位成本之间的关系。这一机制不仅有助于明确责任界定,还能有效防止数据滥用与泄露现象的发生。在传统模式下,数据流通多局限于企业内部或与紧密合作的企业之间,数据交换方式简单,数据利用局限于在单一组织或特定业务中,数据资产化意识不强,数据交易不普遍,价值难以释放。通过可信数据流通基础设施平台的构建,支持开放数据市场和跨行业、跨平台的数据共享和交易,形成数据流通平台、数据交易平台等,推动数据资源的商业化利用。数据资产化观念提升,数据作为生产要素的价值凸显,推动基于数据的创新生态(如智慧城市、精准医疗、智能制造等)。

(三)构建多方协同的治理体系

以往,传统数据流通基础设施中数据应用生态体系相对简单,主要服务于业务系统支持和信息存储,数据应用创新有限。数据应用主要满足组织自身需求,缺乏跨部门、跨行业的协作。通过可信数据流通基础设施的建设,可以支撑更复杂的生态体系,汇聚数据安全服务商、数据平台运营商、数据提供方等多元化角色,形成开放的数据生态。这样可以支持跨部门、跨行业的创新应用,催生数据驱动的业务模式(如智慧交通、个性化金融、数字营销等),推动数字经济的发展。

构建政府、企业和社会多方协同的治理体系是数据要素市场建设的重要特征。这种协同治理模式强调政府在制定政策和监管方面的作用,同时鼓励企业和社会组织积极参与数据治理,共同推动数据要素市场的健康发展。例如,政府通过建立数据确权和授权机制,引导市场主体参与数据要素市场建设,确保数据主体的权益得到尊重和保护。在数据要素市场建设中,政府通常扮演引导者和参与者的双重角色。政府不仅需要完善市场规则体系,还需要通过政策引导,促进公共数据资源的开放和利用,从而推动市场的公平竞争与合作。同时,市场主体在数据要素市场中发挥主导作用,通过创新机制和商业模式,推动数据资源的整合和共享。在数据要素市场的发展过程中,政府监管与市场自律相结合的模式逐渐成为趋势。政府通过建立标准化、规范化的监管体系,确保数据交易市场的有序运行;市场主体则通过行业自律和社会协同,实现自治并合法依规开展数据要素交易与流通。

三、基于机密计算的可信数据流通基础设施

在数据生产要素的流通过程中,如何兼顾数据隐私和全生命周期的安全性,是当前全世界在数据治理中面临的共同挑战。传统的安全技术能够有效保护静态存储或网络传输中的数据,但无法很好解决个人信息或者重要业务数据在使用阶段及全生命周期中的安全问题;数据“复制式”和“明文数据接口调用”等传统流通方式,无法满足合规需求与新一代安全标准,亟需通过创新的技术或模式实现数据要素的可信流通。

当前,行业领军企业正依托全国信息安全标准化技术委员会和全球计算联盟等权威组织,积极推动机密计算技术的应用,旨在有效解决数据安全领域的核心痛点,确保数据在全生命周期内的可信与安全。从技术角度来看,基于机密计算的硬件级安全环境(如基于芯片片上安全处理器或扩展指令集)保障运行的数据处理程序与数据本身无法被系统或硬件拥有者篡改或窃取。通过改变数据交互和融合模式,实现数据在流通、存储、使用等过程中“可用不可见”,解决数据流转、共享、使用环节中的数据隐私保护问题。同时,基于包括硬件在内的多种可信数字签名技术,保障数据全生命周期的可信、可验证特性,打破数据孤岛,确保数据能够安全可靠地跨域、跨应用流转,促进多方协同。同时,基于机密计算技术,数据提供者可禁用、销毁已跨域共享的数据,并在远端生成一个芯片级数字签名的(无法篡改的)可验证报告,报告具有法律效力,用于验证远端共享后数据的禁用与销毁。最后,在通用落地性方面,与高门槛、高成本的专用安全芯片不同,该技术完全兼容国产通用芯片和通用服务器设备(例如海光通用 CPU 与服务器),保障技术的普适性和可落地性。

四、可信数据流通基础设施挑战与发展

目前,数据交易流通主要呈现三种模式:开放、共享和交易。开放模式通常以公共数据为主,共享模式涉及供需双方相互提供数据,而交易模式则是有偿提供数据。然而,当前我国在推进数据要素流通与治理过程中仍面临诸多挑战,如交易市场探索期、政策机制不完善、缺乏标准化基础设施和技术探索不足。为了应对这些挑战,需要加强高质量数据供给,激活数据流通的源头;建立健全流程规则,促进合规高效的数据流通;积极培育流通生态,降低数据要素交易成本;大力促进以机密计算为代表的技术创新,夯实数据流通基础设施建设。

为进一步发展数据要素市场,构建数据可信流通基础设施需重点关注数源供给、流通合规和技术保障。从数据源供给来看,首先,需要建立健全的数据流通合规政策与法律框架,推动政府部门出台专门的数据流通和隐私保护法律法规,为数据交易和跨组织流通提供法律保障。针对敏感数据(如医疗数据)的流通,基于机密计算等新一代可信安全技术,应设立严格的合规性要求和隐私保护标准,确保数据流通过程中保护个人隐私和信息安全。其次,流通场景的法律框架加快完善将为数据流通服务行业的发展奠定基础,增强企业和用户的信任。

构建数据安全技术创新联盟,推动关键技术研发,成立行业技术联盟,汇聚科研机构、企业和政府等多方资源,推动数据安全技术创新,加快隐私计算、机密计算、区块链溯源等关键技术的研发和应用。通过技术创新提升数据流通的安全性和隐私保护水平,为数据流通服务提供坚实的技术支撑,构建更安全的生态环境,以满足数据在流通交易中的权属认定、安全性、合规性、完整性和可追溯性等要求。最终推进数据服务标准化与认证体系建设,设立数据流通和安全服务的标准化体系,包括数据质量评估、数据脱敏标准、交易规范和服务等级等,并推行第三方认证制度。

五、可信数据流通基础设施在医疗领域的应用与示范

可信数据流通基础设施已在医疗领域规模化应用,有力推动了跨机构医疗数据的可信共享,使不同医院、科研机构、制药公司等能够以安全、合规的方式交换数据,进而提高医疗数据的利用率并推动医学创新。基于医疗数据的特殊属性,在数据跨域流转使用过程中需考虑患者隐私、合规性和价值评估等复杂问题。DeepSeek 等大模型的崛起,标志着人工智能进入了一个全新的发展阶段,其正对经济发展、社会进步和人类生活产生深远影响。从产业角度来看,只有确保人工智能数据隐私得到充分保护且合规,才能更好地促进人工智能数据要素的共享利用,从而释放其价值。

围绕国家标准人工智能计算平台安全框架试点项目,我们联合行业内人工智能安全、机密计算及医疗领域头部力量,创新构建了人工智能数据共享平台。该平台在不分享明文数据(如个体体征和基因数据)的基础上,成功支持糖尿病人工智能风险预测模型与强直性脊柱炎的全基因组关联分析(GWAS)相关基因组模型的训练与可信推理,为解决生物医学数据开放共享问题提供了思路。

在数据流通安全与隐私保护方面,机密计算技术发挥了重要作用。在保障隐私安全的前提下,基于患者的病史、体征信息和人口统计信息,精准预测其未来三年内糖尿病的发病概率及类型。这对于医疗保健专业人员识别潜在糖尿病患者并为其制定个性化治疗计划十分有效。同时,研究人员可以使用该数据集深入探索医学和人口因素与糖尿病风险之间的关联。脱敏后的海量糖尿病患者体征数据、人工智能训练数据(即病患体征数据)以及人工智能训练好的模型(知识产权IP)均属于核心敏感数据,在跨域流转和使用过程中需严格确保其隐私安全。

基于机密计算的硬件级安全环境,为人工智能医疗数据提供了全生命周期的可信安全保障。通过改变数据交互和融合模式,实现数据“可用不可见”,有效解决了数据流转、共享和使用环节中的数据隐私保护问题。人工智能医疗数据的训练和推理等计算任务,在芯片级机密计算的安全隔离环境中进行,防止了核心资产在计算任务执行过程中被窃取或篡改。基于机密计算的可信数据流通基础设施,打破了数据孤岛,使数据能够在不同主体间可信流通和共享,提高了数据利用效率,挖掘出数据的潜在价值。它实现了在隐私保护的前提下,人工智能数据的广泛可信分享、使用和资产化,为数据流通基础设施的应用场景提供了良好的示范。

(本文刊登于《中国信息安全》杂志2025年第1期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。