作者简介
白玉真
中国信息通信研究院云计算与大数据研究所工程师,主要从事数据流通、高质量数据集等相关研究工作。
贾轩
中国信息通信研究院云计算与大数据研究所工程师,主要从事数据基础设施、数据流通等相关研究工作。
王思源
中国信息通信研究院云计算与大数据研究所工程师,主要从事隐私计算、数据流通等相关研究工作。
袁博
中国信息通信研究院云计算与大数据研究所大数据与区块链部副主任,高级工程师,主要从事数字经济、大数据、数据流通、隐私计算等相关研究工作。
论文引用格式:
白玉真, 贾轩, 王思源, 等. 数据流通利用设施关键技术与建设路径研究[J]. 信息通信技术与政策, 2025, 51(4): 34-39.
数据流通利用设施关键技术与建设路径研究
白玉真 贾轩 王思源 袁博
(中国信息通信研究院云计算与大数据研究所,北京 100191)
摘要:随着数据成为生产要素,数据流通利用设施在国家数据基础设施中占据重要地位。首先分析了隐私保护、使用控制、信任保障等数据流通利用关键技术的发展现状,强调了这些技术在数据流通中的应用。其次,对可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等数据流通利用设施的主要特点和建设路径展开研究。最后,探讨了数据流通利用设施的发展挑战和未来发展趋势,期望为更好激发数据流通利用活力提供参考。
关键词:数据流通利用;数据基础设施;数据空间;隐私保护计算
0 引言
自2019年数据被列为生产要素后,从《关于构建更加完善的要素市场化配置体制机制的意见》指出加快培育数据要素市场,到《要素市场化配置综合改革试点总体方案》强调探索数据流通规则和交易范式,再到《关于构建数据基础制度更好发挥数据要素作用的意见》中围绕数据产权、流通交易、收益分配、安全治理等方面提出举措,顶层制度体系文件的完善加速推动数据流通开发与利用。2023年2月,《数字中国建设整体布局规划》进一步指出要畅通数据资源大循环。2024年12月,国家发展改革委等部门联合印发《国家数据基础设施建设指引》(简称《指引》),明确指导数据基础设施建设,进一步助力打通数据流通动脉[1]。本文从关键技术发展情况、主要技术设施特点、建设路径、发展挑战和发展展望等方面对数据流通利用设施开展研究,期望为更好地激发数据流通产业活力提供参考。
1 数据流通利用设施概述
随着数字经济的加速发展,海量数据从不同区域、不同行业汇聚而来,数据产品在不同行业、不同机构之间需要合规高效地流通,同时,不同主体对数据资源和产品的有效利用也愈发重要。这些都对支撑数据要素价值释放的基础设施提出了新的需求。
国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体[1]。因此,国家数据基础设施是数字基础设施在数据要素化时代的延伸与拓展,是在整合现有数字基础设施的基础上,沿着释放数据要素价值释放的方向,持续推动网络设施、算力设施、数据流通利用设施等不断升级优化,实现数据“供得出”“流得动”“用得好”“保安全”。
数据流通利用设施是国家数据基础设施的重要组成部分,为跨层级、跨地域、跨系统、跨部门、跨业务数据流通利用提供安全可信环境,包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施[1]。
2 数据流通利用关键技术发展现状
2.1 隐私保护技术
隐私保护计算是在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”[2-3]。其在确保隐私安全的同时,还能高效处理数据,分为三大类技术:第一类是基于密码学的多方安全计算和同态加密等技术,这些技术主要用于联合统计、安全求交和联合建模等统计分析场景;第二类是以机器学习为基础的联邦学习,适用于多个数据方参与的联合建模;第三类则是依托可信硬件的可信执行环境,多个数据方可以将数据和模型导入到可信环境中进行联合计算。
自2019年以来,隐私保护计算的落地需求呈逐年递增的趋势,已经从初期验证阶段进入产业加速落地应用阶段。技术方面,逐渐呈现多种技术交叉融合应用的趋势,以满足应用场景中高性能和高安全的要求。场景方面,通过联合风控、联合营销等场景广泛应用于金融、政务、医疗、互联网等数据密集型行业[4-5]。
2.2 使用控制技术
数据使用控制作为可信数据空间的核心技术,是在数据的传输、存储、使用和销毁环节采用技术手段进行控制。如通过智能合约技术,将数据权益主体的数据使用控制意愿转化为可机读处理的智能合约条款,解决数据可控的前置性问题,实现对数据流通的时间、地点、主体、行为和客体等因素的控制,是传统访问控制技术的衍生。
数据空间的概念最早在2005年由迈克尔·富兰克林等提出,认为数据空间不是一种数据集成方式,而更像是一种数据共存方法。随着德国工业4.0标准化委员会提出国际数据空间(International Data Spaces,IDS),数据空间的概念不断演化发展。目前,全球多个国家和地区积极开展数据空间应用。一方面是通过公共数据空间提高公共数据可访问性和可用性,例如欧盟建立健康数据空间开展数据治理机制、安全和隐私保护、数据互操作性和标准化等工作,实现了公共数据资源的管理和共享。另一方面是以行业数据空间为载体,打造基于数据交换的新业态。例如,德国能源署发起能源数据空间项目Dena-ENDA,推动能源企业、工业企业、政府等多方的能源数据共享。南方电网构建能源行业可信数据空间,以及供应链上下游企业的数据融合应用,实现能源生产、传输、分配和消费等环节的智能化和精细化管理。
2.3 信任保障技术
信任保障技术主要包括区块链、分布式数字身份等技术,提供数据可信、身份可信、操作可信、流通过程可信等能力。区块链与分布式数字身份技术正在从技术验证走向规模化应用。区块链通过分布式账本、共识机制、智能合约等技术为数据流通利用全链条提供信任支撑,通过跨链、隐私保护等技术进一步扩展应用边界,增强安全与隐私保障,而分布式数字身份技术通过去中心化身份管理重构数字信任体系。两者协同发展将加速数据要素流通,推动数字经济向可信化、高效化转型。例如,依托区块链的分布式账本技术与共识机制,有助于确保数据流通利用的真实性、完整性,提升数据可信度,通过智能合约可实现将数据流通利用过程中的人工干预转换为自动化处理,降低跨组织协作的信任成本。《指引》提出建立全国一体化分布式数字身份体系,规范身份注册与认证机制。通过分布式数字身份技术赋予用户对自身身份数据的完全控制权,并实现跨平台、跨组织的可信身份验证,将有效解决传统中心化身份管理存在的隐私泄露、“数据孤岛”和单点故障等问题。
2.4 辅助技术
端云协同、大模型、互联互通等技术的协同作用,也为数据流通利用提供了从基础设施到应用场景的全链条支撑[6]。例如,通过端云协同技术,可以将复杂的计算任务部署在云侧,充分利用云侧资源和能力进行处理,适用于跨端、云的数据流通利用场景[6]。然后,大模型技术在数据安全领域发挥着重要作用。例如,通过自然语言处理技术,可以对数据产品中的关键信息(如敏感词汇、隐私信息等)进行精准识别和审查。同时,利用模型逆推验证技术,能够确保数据处理过程的合规性。此外,大模型技术还可以对数据的访问权限、加密措施以及备份恢复策略进行全面审查,从而保障数据在来源、传输、存储和使用等各个环节均符合安全规定。其次,针对互联互通技术,通过统一目录标识、身份认证和接口规范,有助于加快打破跨域数据流通的技术壁垒,促进分布式数据资源的规模化共享。
3 数据流通利用设施建设路径研究
3.1 主要技术设施
数据流通利用设施包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施[1]。前4种设施都是一种综合性方案或框架,后两种则是一种流通技术进行基础设施化的具体表现。这些技术路线各有特点,基于不同特点可在特定场景中发挥其优势作用,同时又相互关联、相互包容,有利于通过技术路线融合解决实际复杂问题。
可信数据空间是数据流通的“安全港湾”,其特点为可信连接、共享共用。通过构建可信管控、资源交互、价值共创三大能力,为数据流通各方提供流通全过程的控制、管理、计量等共性技术服务,为数据的生成、流通、共享和使用提供安全可信环境。具体而言,可信管控能力是基于空间接入认证体系,对空间参与主体、接入数据资源、预集成应用服务,以及对空间内数据跨主体的流通范围、使用过程、使用方式等行为进行控制和管理。资源交互能力是构建空间内数据资源的供需对接能力和跨空间管控指令的有效传递与执行,提高流通的便利性和效率。价值共创能力是从运营视角出发,基于流程机制、共性技术服务能力和市场规则,面向参与主体提供数据价值共创的环境,构建数据流通生态。
数场是数据流通的“综合性枢纽”,依托开放性网络、算力和隐私保护计算、区块链等各类关联功能设施,面向数据要素提供线上线下资源登记、供需匹配、交易流通、开发利用、存证溯源等功能。数场从点、线、面、场、安全5个维度构建标准化技术框架,依托各种技术、各类组件、各项流程机制等密切配合,实现数据安全高效流通。从供给角度来看,数场能够支持数据资源广泛发现,跨域流通使用等。从需求角度来看,数场有助于实现数据的高效查找和安全应用。从作用上讲,数场以高效流通、价值释放、繁荣生态为核心,实现数据可见、可达、可用、可控、可追溯。
数据元件是数据流通的“中间态”,基于数据元件以及相关组件组成数据流通利用设施,可将原始数据与数据应用“解耦”,连接数据供需两端,实现从数据归集到数据元件加工交易全生命周期的数据要素开发和管控。从作用上讲,数据元件提供统一标准、安全可靠、全程监管的数据存储和加工服务,支持采用标准化工序完成数据产品规模化加工、生产和再利用,适用于大规模数据加工和生产场景。
数联网是数据流通的“服务网络”,是由数据流通接入终端、数据流通网络、数据流通服务平台构成的一种数据流通利用设施。数联网提供一点接入、广泛连接、标准交付、安全可信、合规监管、开放兼容的数据流通服务。一是数联网将数据与应用解耦,在互联网技术体系的基础之上进行拓展,促使数据可以成为互联网上独立标识、定位、发现和访问的资源;二是数据流通网络,通过高速率、低时延、弹性扩缩容的数据服务,实现数据就近接入、全网可达,以标准化协议替代传统专线或平台式连接。
区块链网络是数据流通的“信任基石”,支撑其他数据基础设施实现多中心化、共识可信、不可篡改、可追溯等。通过分布式账本、非对称加密、共识机制等技术来能够保障数据不可篡改、全程可追溯。
隐私保护计算平台是数据流通的“安全引擎”,从作用上讲,主要针对高敏感数据跨域流通利用场景,隐私保护计算平台可以提供开放普惠的公共服务。功能架构方面,隐私保护计算平台需具备资源底座、隐私保护计算引擎、隐私保护计算公共服务、数据流通利用等功能,通过为各类数据流通利用主体提供安全、高效、稳定、易用的隐私保护计算服务,避免重复建设带来的资源浪费,降低企业部署隐私保护计算的门槛与投入成本,使中小微企业也能便捷获取高性能、可扩展的隐私保护计算能力,促进数据跨域安全利用。
3.2 建设路径分析
数据流通利用设施作为释放数据要素价值的核心设施,以特点和应用需求为牵引、以关键技术为支撑,基于技术实现和分层解耦的视角,通过一体化打通数据的接入、传输、流通、监测等环节,构建起一套保障数据高效流通利用的能力体系。但是,当前我国数据基础设施建设还处于探索阶段,亟需明确数据流通利用设施的整体架构体系、功能模块以及空间布局体系。
在建设内容方面,根据《指引》中提出的“三阶段”推进路径,逐步收敛和明确数据流通利用设施的核心功能模块,梳理各个功能模块之间的调用关系,设计完善的整体框架体系。从数据要素价值释放的业务场景出发,例如公共数据开发利用场景、行业或企业数据流通场景,梳理基础设施的业务流程,并明确保障数据、系统、管理等多方面安全的机制体制及关键技术。
在空间布局方面,国家数据基础设施以行业、区域数据基础设施为主体,以企业数据基础设施为重要组成[1]。当下各个设施的发展基础不同、面向对象不同、发展思路也各有差异,需通过有机结合来解决数据要素的产权界定、收益分配、交易流通和安全治理等关键问题。亟需分析不同区域、不同行业设施的空间布局重点以及建设原则,积极构建跨域互联、分域自治的空间布局体系。
在运营管理方面,厘清国家数据局、地方大数据相关部门、地方数据集团、数据交易所等在数据流通利用设施建设中应该承担的角色和职能,提升基础设施的整体发展效能。例如,国家作为整体的协调监管方,解决各个行业或地区之间的跨域数据流通中的关键问题,并对整个数据流通体系进行必要的监测统计和统一规范。行业或地方数据交易所是数据的运营方,支撑数据在供需双方之间的匹配和流通,主要具备数据标识、身份认证、数据接入流通处理以及备案管理等能力。企业或机构是数据的实际供需方,提供和使用数据资源,主要在数据资源接入和流程处理、备案审核等环节需要具备相应的能力。
4 数据流通利用设施发展挑战
4.1 互联互通亟待加强
目前数据流通利用设施技术路线“百花齐放”,但跨路线、跨区域的数据流通利用设施互联互通依然存在堵点、难点。一方面,由于不同数据流通利用设施平台在数据标识、数据目录、接口协议、安全机制等方面存在差异,部分存在平台间数据无法有效对接、服务质量参差不齐的问题,“数据孤岛”现象严重影响数据规模化流通。另一方面,目前缺乏全国统一的技术标准规范。数据流通利用设施需要依赖统一的目录标识、身份登记和接口规范,但当前各地方、行业在数据格式、质量标准、隐私保护等方面存在差异,导致数据互通困难。例如,不同区域的数据目录分类分级机制尚未完全统一,跨层级、跨业务的数据流通仍存在技术壁垒。
4.2 数据安全与隐私保护成本高
数据安全与隐私保护是数据流通的基本底线,但保障数据安全的实施和计算成本较高。一方面,数据流通涉及数据交互过程全生命周期安全保障,需从静态边界防护转向动态实时安全保障。然而,当前安全防护体系多侧重于网络和算力设施,对数据流通中的隐私泄露、非法访问等风险缺乏系统性应对机制,导致动态安全防护复杂性较高。例如,数据流通过程中的合规性审查、匿名化效果评价与全流程的安全评估尚未形成标准化流程。另一方面,同态加密、多方安全计算等隐私计算技术虽然可以隐私保护,但由于其计算复杂度较高,在大规模商业应用中代价往往较高。需要研究平衡数据有效性与隐私保护的解决方案,研究数据脱敏等匿名化数据处理方式,实现精细化、差异化的隐私保护。
4.3 协同机制与持续运营待完善
一方面,多元主体协同不足。数据基础设施涉及政府、企业、科研机构等多方利益,需要多方配合协同,明确建设方、运营方以及监管方等各方的职责范围和协同机制。此外,数据流通利用应用场景众多,包括金融、医疗、交通、能源、教育、气象等领域,目前各部门、各行业的数据系统独立运作,缺乏全国一体化的数据目录和泛在接入体系,数据共享仍存在“数据烟囱”现象。另一方面,数据流通利用设施的建设是一项长期性、系统性工程,既需大规模投入硬件、软件及运维资源,也要适应快速变化的技术环境(如大模型应用、边缘计算等),目前处于先行先试的探索阶段,后续需构建长期运营的可持续模式。
5 数据流通利用设施发展展望
5.1 加强互联互通,构建全国一体化数据流通体系
为推动数据共享,建设并运营国家数据基础设施以及打造高效集约的数据流通利用设施至关重要。通过技术标准规范,按照统一目录标识、统一身份登记、统一接口要求,建设数据流通利用设施底座,加强各级基础设施间的互联互通,实现数据要素的跨主体、跨行业、跨地域的高质量发展,将是实现数据流通利用的关键。
5.2 完善技术体系,多技术融合应用发展
数据空间、隐私保护计算、数字身份等新技术将在数据流通中发挥重要作用。这些技术保障了数据的“可用不可见”“可控可计量”,并随着技术的积累和应用深化,技术信任成为数据流通各方主体增强互信、保障安全的关键支撑,并且多种技术将组合使用、有效互补,发展成为一个完善的数据流通保障体系。未来,多种技术将进一步交叉融合,具备更高的适配性、满足海量数据的高实时、高并发、高准确性要求,以及确保数据流通全流程的可溯源、可审计。
5.3 深化场景应用,多领域价值释放与模式创新
通过数据流通利用设施将进一步促进场景创新应用,例如通过医疗可信数据空间整合电子病历、基因数据,支持精准医疗和科研协作;上海数据集团联合金融机构打造金融子空间,优化信贷审批流程。同时,随着公共数据授权运营模式发展成熟,政府和企业间的数据流通也将基于基础设施加速公共数据价值的释放。在数据流通利用设施的建设过程中,通过遴选一系列可复制、可推广的应用场景案例和创新模式,培育出一批具有示范效应的标杆案例,有助于激发数据流通利用场景潜能,推动整个社会数字经济的“乘数而上”。
6 结束语
通过数据流通利用设施的建设,可以为各类企业提供便利、高效的数据流通服务,为数字经济的蓬勃发展提供支撑。然而,数据流通也面临着隐私保护与安全合规的挑战,如何在开放与安全之间找到平衡,是未来设施建设的核心课题。因此,本文从数据流通利用设施的概念出发,分析了4类数据流通利用关键技术的发展现状,阐述了6种主要技术设施的内涵、作用和意义,并探讨了具体的建设路径。在此基础上,总结分析了数据流通利用设施发展面临的问题,以及从互联互通、技术体系、场景应用等视角分析了流通利用设施未来的发展趋势。未来,随着技术体系更加成熟、场景应用更加深化等,数据流通利用设施将更加完善,数据的高效安全流通也将持续推动数字经济的高质量发展。
Research on key technologies and construction paths of data circulation and utilization facilities
BAI Yuzhen, JIA Xuan, WANG Siyuan, YUAN Bo
(Cloud Computing & Big Data Research Institute, China Academy of Information and Communications Technology, Beijing 100191, China)
Abstract: With data becoming a factor of production, data circulation and utilization facilities occupy an important position in the national data infrastructure. This paper first analyzes the development status of key technologies for data circulation and utilization, such as privacy-preserving computing, usage control, and trust guarantee, and emphasizes the application of these technologies in data circulation. Then, it conducts research on the main characteristics and construction paths of data circulation and utilization facilities such as trusted data spaces, data field, data components, internets of data, blockchain networks, and privacy-preserving computing public service platforms. Finally, it explores the development challenges and future trends of circulation and utilization facilities, hoping to provide reference for better stimulating the vitality of the data circulation industry.
Keywords: data circulation and utilization; data infrastructure; data space; privacy-preserving computing
本文刊于《信息通信技术与政策》2025年 第4期
声明:本文来自信息通信技术与政策,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。