开放环境下大数据安全开发利用的挑战和思考

摘要：

数据作为新型生产要素，与云计算、大数据、人工智能等新兴技术深度融合，促进社会生产力以前所未有的速度发展。以数据为基础资源，我国将数字经济作为国家战略进行实施，并强调数据安全是数字经济健康发展的基本保障。当前的数据环境更加开放，共享利用更为频繁，数据呈现来源广、规模大、结构丰富、处理行为多样、拥有权与使用权分离等特点，针对数据面临着被恶意窃取、篡改、删除、非法使用等威胁和技术挑战，以密码技术为核心，设计了数据安全基因模型，提出了具有安全存储、密态利用、全程监管能力的开放环境下数据安全架构，为不同典型场景的数据安全需求提供解决方案。

内容目录：

1 数据开发利用的安全挑战

2 数据安全开发利用技术现状分析

2.1 安全存储

2.2 密态利用

2.3 数据监管

3 数据安全开发利用技术架构

3.1 数据安全开发利用平台架构设计

3.2 数据安全流通格式结构设计探索

3.3 数据安全开发利用平台系统组成

4 数据安全开发利用的应用场景

5 结语

随着云计算、大数据、物联网、5G 通信、人工智能技术等新兴技术的发展和应用，数据已经成为企业和国家的基础资源，在政府高效治理、企业生产提质增效、市场资源获取、科技创新等方面发挥了关键作用，极大地促进了社会经济的快速发展。以数据为中心的信息时代已经到来，数据已成为国家战略资源。2015年 10 月，中共十八届五中全会首次提出“国家大数据战略”，旨在全面推进我国大数据发展和应用，建设数据强国，促进经济转型升级；2020 年 4 月，中共中央、国务院正式发布了《关于构建更加完善的要素市场化配置体制机制的意见》，首次提出将数据作为生产要素，强调推进政府数据开放共享，加强数据资源整合和安全保护；2022 年 1 月，国务院印发了《“十四五”数字经济发展规划》，部署了优化升级数字基础设施、充分发挥数据要素作用、大力推进产业数字化转型、加快推动数字产业化、持续提升公共服务数字化水平、健全完善数字经济治理体系、着力强化数字经济安全体系、有效拓展数字经济国际合作 8 项重点任务，目标是实现 2025 年数字经济核心产业增加值占国内生产总值比重达到 10%；2022 年 1 月，《求是》杂志发布了习近平总书记重要文章《不断做强做优做大我国数字经济》，指出发展数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。我国从大数据战略、数据生产要素等逐渐向数字经济的国家战略发展，持续强化了数据的战略意义。

数据作为重要的基础资源，受到世界各国、组织的高度重视。各个组织可以运用先进的数据分析处理技术，收集多来源的海量数据，实施数据挖掘、机器学习等算法，提炼出高价值数据信息。同时，数据是指任何以电子或者其他方式对信息的记录，其复制成本低、环境容易不受控。由于数据本身具有利用价值且容易被攻击，因此数据安全问题日益严重，危及国家、社会及个人的安全，严重时将引发国家威胁、社会混乱、个人财产或生命安全威胁。2019 年9 月，Facebook 公司泄露了 4 亿条用户的账号、电话号码等信息，并被美国联邦贸易委员会罚款 50 亿美元；2020 年 4 月，知名的视频会议软件 Zoom，在用户安装或打开应用程序时收集用户信息，并因安全防护不到位，导致 1.5 万个会议视频遭泄露；2021 年 10 月，江苏无锡警方成功破获了一起侵犯公民个人信息案，犯罪嫌疑人非法获取各类公民信息 54 亿多条，并通过非法网络平台以查询、出售等方式牟取利益。可见，国内外每年的数据安全事件频发。

为了降低数据安全事件频发导致的安全危害，确保数据被合理地开发使用，并保证数据经济健康有序发展，世界各大经济体相继制定了一系列数据安全法律法规。2012 年 2 月，美国白宫提出了《消费者隐私权法案》，让消费者能更好地控制他们留在互联网上数据足迹的使用、储存和销售。2018 年 5 月，欧盟出台了《通用数据保护条例》（General Data ProtectionRegulation，GDPR），成为欧盟隐私和数据保护的法律框架，要求在欧盟地域内的企业满足条例的合规性要求。2021 年 6—8 月，我国相继发布了《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》，规范数据处理活动、个人信息处理活动，保障数据安全，促进数据开发利用和个人信息合理利用，保护个人、组织的合法权益，维护国家主权、安全和发展利益。

由此可见，数据是企业和国家发展的基础资源、关键资源，数据要素基础设施建设、数字经济发展、数据安全防护是世界各国的战略共识。本文主要聚焦于数据安全利用，分析开放环境下数据安全面临的挑战，介绍数据安全技术的发展现状，设计数据安全开发利用技术架构和系统组成，并简要提出典型场景下的应用模式。

1 数据开发利用的安全挑战

数据开发利用过程，也是数据、算法和算力协同发展、持续递进的过程，其核心是“以数据为资源，挖掘信息价值”。如今，互联网、物联网、5G 通信等网络技术为大规模边端数据采集提供了可靠手段。云计算技术为数据存储与处理提供了灵活配置的基础设施资源池，具备了算力基础。大数据技术使得大规模数据存储与处理具备了高效运行和海量数据汇聚融合的能力。人工智能技术为数据智能分析和价值提炼提供了算法能力。整个数据开发利用过程融合了云计算、大数据、物联网、移动通信、人工智能等技术，贯穿了大规模边端、云计算设施、大数据中心、智能应用等信息系统，涉及数据拥有方、平台运营方、数据使用方、监管方等角色。因此，数据环境是一个广泛开放式环境，并处于频繁流动与共享利用状态，加剧了跨部门、跨行业的数据流动趋势。因数据具有来源广、规模大、结构类型丰富、处理行为多样、拥有权与使用权分离等特点，使数据安全在开放环境下面临着新的挑战。

（1）数据隐私泄露风险高。信息技术的发展极大地促进了社会向着数字化、智能化方向快速发展，数据已经成为承载和描述实体信息的基础要素，同时也记录了关系个人和机构的敏感信息。例如，个人使用的网上购物、网上银行、电子支付、打车平台、个人政务办理等数字化服务，会向服务运营商注册并提供身份证、个人照片、住址、性别、年龄等敏感信息；企业使用商业云计算和大数据平台执行企业协同办公、业务流程、财务管理等应用，同样会导致企业敏感信息被置于第三方运营商中，一些运营商为了提升服务能力，会基于用户数据进行分析处理。而这些具有挖掘价值的数据，往往成为黑客攻击的对象。因此，随着社会数字化进程加快，数据成为描述实体信息的基础要素，但数据收集和使用的不可控导致数据隐私泄露风险高。

（2）数据融合安全能力弱。数据作为一种生产要素，能够通过数据挖掘、联合分析来产生价值，促进企业生产力的提升。随着数据挖掘和人工智能技术的发展，需要大量高质量的数据集来生成准确的算法模型，这促进了多个机构间的数据形成特征互补、数据量扩充，以联合协作的方式执行数据融合计算。但数据涉及用户和机构的隐私，必须采用安全手段保护数据融合过程的安全。传统安全防护以边界防护为主，无法实施数据流通的动态防护。同时，常用的基础加密技术会破坏数据结构，导致无法执行加密计算，而执行密态处理的同态加密计算、安全多方计算等技术的效率还不能满足大规模应用的需求。因此，数据作为生产要素需要被汇聚和计算，仅凭当前安全防护技术和加密技术，无法满足海量密态数据处理需求，呈现出数据融合安全能力弱的问题。

（3）数据流转全程监管难。合规性是当前

数据安全治理的重要内容，在当前政务数据开放共享、互联网企业联盟数据共享等背景下，以及国家不断增强的数据安全法律法规约束下，实施数据内容和数据行为的全程监管是一个具有挑战性的难题。数据在采集汇聚时，来自不同的终端和用户，其类型多样，敏感程度不同，难以实施细粒度的管理。数据流转使得数据形成一张复杂的数据网络，其流向复杂、与计算任务深度耦合，难以跟踪。数据在融合计算时，关联数据方较多、权重不一、融合计算行为多样，难以进行授权和可信度量化。因此，数据动态流动频繁、数据类型丰富、数据利用行为多样，使数据采集、存储、传输、处理、交换、销毁等全程监管能力实施难度加大。数据隐私泄露风险高、数据融合安全能力弱、数据流转全程监管难是当前开放环境下数据安全面临的主要挑战。为了应对挑战，本文以密码技术为核心，构建新型计算模式，重点解决安全存储、密态利用、有效监管等关键环节的安全防护问题。

2 数据安全开发利用技术现状分析

数据生命周期主要有采集、传输、存储、处理、交换、销毁等 6 个阶段，在传统的安全手段中，针对静态数据主要以加密和认证为主，针对动态数据主要以边界式防护为主。在采集、传输阶段的密码防护手段较为成熟，本文聚焦于动态数据处理，重点分析数据的安全存储、密态利用和有效监管的现状。

2.1 安全存储

在安全存储方面，数据的完整性、可用性、可靠性亟需保障。Bellare 等人（2013 年）、Li等人（2016 年）、Ren 等人（2021 年）提出的轻量级加密存储方案，Dijk 等人（2012 年）、Fisch 等人（2019 年）、Cecchetti 等人（2019 年）提出的多副本编码协议，以及 Ateniese 等人（2007年）、Bowers 等人（2009 年）提出的数据完整性验证技术，推动了分布式安全存储应用。谷歌 GFS（2003 年）、亚马逊 Snowball（2006 年）、微软 OneDrive（2014 年）、华为 GaussDB（2020 年）等云存储方案的安全性逐渐增强，但都是针对中心化环境而设计，不适用于跨中心或去中心化的分布式存储。2020 年，主网上线的星际文件系统（InterPlanetary File System，IPFS）采用无中心组网，将加密文件切割成多个碎片，采用基于 zk-SNARK 的副本证明机制，实现安全存储，周数据增量为 PB 级，且能提供 100 Gbps以上的吞吐量，解决了单点故障等缺陷，但仍存在存储空间浪费严重、数据完整性无保障、数据滥用难控制等问题。

收敛加密、数据完整性验证、细粒度访问控制等技术提升了数据存储安全性，但存储环境开放带来的数据泄露、篡改、删除等事件对数据安全可靠存储造成了严重威胁，仍然存在技术瓶颈，主要包括加密存储模式下数据难以去重、加密存储备份与同步效率低、数据远程完整性验证困难。因此，面向海量、异构、多维数据安全可靠存储，亟需研究轻量级加密、多备份存储、高效更新、完整性验证等关键技术，为我国数据治理提供安全存储技术支撑。

2.2 密态利用

开放环境下打破数据流通壁垒的关键在于解决制约数据利用的隐私保护掣肘。数据安全利用主要涉及可搜索加密、隐私信息检索等密文检索技术，以及同态加密、安全多方计算等密态计算技术。其中，在密文检索方面，Boneh 等人（2004年）、Lai 等人（2018 年）、Wang 等人（2018年）、Bossuat 等人（2021 年）提出的可搜索加密方案都是针对中心化环境而设计，不适用于跨中心分布式检索；2011 年，麻省理工学院更新的 CryptDB 密态数据库系统，在 2.5 万条数据集下等值、范围检索耗时不超过 7.3 秒；NDSS 2021 最新结果表明隐私信息检索发现方案在 228 条数据下单次检索耗时 1.92 秒。在同态计算方面，Brakerski 等人（2012 年）、Fan 等人（2012 年）、Gentry 等人（2013 年）、Cheon 等人（2017 年）提出的方案只适用于中心化的外包计算场景，无法直接应用于多方计算场景；2020 年，IBM 更新的 HeLib 和 Microsft更新的 SEAL 同态密态计算库的加法门电路计算耗时较少，但是乘法门电路计算耗时动辄数十甚至上百毫秒；2021 年，中国电科三十所依托国家重点研发计划项目集成的密态数据计算系统能够实现密文加法、乘法及密文刷新耗时都控制在 10 毫秒内。在安全多方计算方面，Yao（1986 年）、Damgard 等人（2012 年）、Hong 等人（2019 年）、Garimella 等人（2021 年）[22]提出的方案大多难以平衡通信负载、计算开销和安全强度。对此，国际上，单同态加密标准ISO/IEC 18033-6、安全多方计算标准草案 IEEEP2842、联邦学习 IEEE 3652.1-2020 相关国际标准被提出。国内，2020 年，中国信息通信研究院成立了隐私计算联盟；同年，中国人民银行发布了行业标准 JR/T 0196—2020《多方安全计算金融应用技术规范》，凸显了密态数据处理技术在国家数据安全发展中的重要作用。

现有的密态计算技术，能够实现加密数据下的数据利用，但仍然存在技术瓶颈待突破，主要包括可搜索加密复杂检索效率低、安全多方计算通信开销高、同态加密计算耗时大。因此，突破跨中心场景下可搜索加密、同态加密、安全多方计算等实用化关键技术，是未来的重要发展方向。

2.3 数据监管

数据监管主要涉及数据行为检测与威胁预警、异常事件取证溯源等技术。在行为检测与威胁预警方面，2019 年，Amazon 的 Security Hub 将机器学习和模式匹配技术应用于敏感数据识别，实现了自动化持续安全性检查，并规范化调查结果格式；2020 年，IBM QRadar 在推出的最新版本中引入异常搜索参数，检测超过 7 万种异常与危险，并利用人工智能技术的自动分类将调查速度提高了 60 倍，实现了秒级实时监控与危险预警。在异常事件取证溯源方面，2019 年，Exabeam 提出 Cloud Archive 组件以提供可搜索的日志存储，该组件可将数据保留长达 10 年，通过构建日志事件时间线实现威胁事件的取证溯源；2020 年，Splunk 整合数据利用行为日志，用于加速关联属性异常定位，结合自动化的噪音事件隔离和端对端的信息共享，实现在秒级以内对 65 种异常和 25 种威胁行为的范围确定与原因追溯；国内山东大学、数字广东网络建设有限公司等团队也在此领域进行了深入的探索，对于多源异构数据采集、数据标准体系建设、数据资产治理与监管 3 个层面，建立了涵盖数据快速定位、数据流转监管的技术体系。总体而言，目前数据流转监管技术大多部署在行业数据中心内部，缺乏对开放平台数据利用行为的准确监测，数据利用的合理规则策略尚未形成。因此，亟需研究开放环境下数据利用行为监管技术，制定全日志自动审计规则，构建层级化监管平台。

数据监管经历了人工为主的初级监管、自动化监管、大数据监管，以及正在发展的智能化监管，但仍然存在技术瓶颈，主要包括现有监管方案不适合开放平台，数据行为合规策略尚未形成，层级化第三方监管效率低。因此，亟需构建事前、事中、事后全链条运用的大数据化智能监管。

综上，目前大数据安全利用技术仅具备海量数据简单密态处理能力，不能满足开放环境下跨中心海量数据流通的复杂处理安全需求。我国在数据安全利用理论、算法设计、系统开发方面尚需突破，产业化尚处于探索阶段。亟需创新开放环境下自主、安全、可信的数据安全利用算法理论和关键技术，推动我国数据要素可信流通，助力数字经济健康发展。

3 数据安全开发利用技术架构

密码技术是信息安全、数据安全的核心技术，是成本低、防护最有效的安全技术。本节以密态计算、区块链技术为核心设计数据安全开发利用平台架构，实现跨中心的数据安全流通，建立数据可控共享、合规监管的数据安全开发利用平台系统。

3.1 数据安全开发利用平台架构设计

为了促进数据要素在各个机构间安全流通，本文基于密态计算、区块链等技术，设计了数据安全开发利用平台架构，以实现数据安全融合共享。主要涉及数据提供方、数据使用方、平台运营方、可信监管方等角色，其职责如下文所述。

（1）数据提供方。数据的归属方，或者受委托存储和管理数据的服务运营方，存储了大量的数据，并负责执行本地明文计算、明密文计算等任务。（2）数据使用方。数据开发利用请求的发起方，根据具体的业务需求，向数据开发利用平台发起数据请求（包括所需的数据集、业务执行代码等），并获取和解密最终的数据计算结果。（3）平台运营方。数据开发利用任务的具体执行者和协调者，解析数据使用方业务请求，根据所涉及的数据集位置，执行安全计算，输出计算结果。（4）可信监管方。权威合规性监管机构或运营平台自身的监管方，负责整个系统的密钥管理和身份认证授权，执行事前授权、事中感知、事后追溯的全程监管。

如图 1 所示，本文基于分布式加密存储、本地化明文计算、平台化密态处理计算模式，设计数据安全开放利用平台架构，构建分布式存储引擎、密文高效检索引擎、密文协同计算引擎，实施智能化监管手段，形成以“原始数据不共享、数据流转必加密、数据可用不可见”为原则的数据可控共享机制。

图 1 数据安全开放利用平台架构

（1）分布式存储引擎。以区块链为基础设施，构建分布式存储模式。采用收敛加密、多备份存储、增量同步等技术，实现加密数据下的低冗余、高可靠存储。融合远程完整性验证技术，实现委托存储数据的低通信量、高准确率的完整性验证。（2）密文高效检索引擎。面向分布式存储模式，构造分布式数据索引结构。以对称可搜索加密技术为基础，设计基于对称密码的链式密文检索方法，通过检索令牌的密态转换，实现不同数据中心的高效索引检索。同时，在密文检索结果中嵌入认证结构，实现对检索结果完备性和正确性的验证。（3）密文协同计算引擎。以同态加密、安全多方计算协议为核心，通过密文转换实现二者密态计算方法的融合，充分利用高维矩阵同态高效计算、安全多方计算的非线性计算等优势，实现大规模密态数据的复杂计算能力。采用零知识证明、同态哈希等技术，实现对密文计算结果的正确性验证。（4）监管系统。基于身份分级授权，设计分布式数字身份管理与访问控制方案，制定数据开发利用的约束规则，构建多维度事务动作的日志审计管理。基于自然语言处理、深度学习等技术，实现智能化实时异常检测与风险预警。通过行为日志的上链和状态迁移模型，实现数据取证和追踪溯源。

本架构的具体运行流程如下：

（1）数据注册与发布。数据提供方向平台注册身份，并对所持有的数据也进行注册，上传其元数据，并进行发布。（2）数据安全存储。数据提供方可以使用平台提供安全存储服务，将数据加密，并委托给平台进行分布式存储。（3）数据利用请求。数据使用方查看平台中发布的数据描述，根据业务需要，选择相应的数据集，并编写相应业务代码，发送给平台。（4）数据利用解析与执行。平台根据请求中所包含的数据集和计算逻辑，将计算任务分割为数据提供方的本地任务、多个数据利用方协同任务、平台全局任务，形成一个完整的任务流，并启动任务执行。数据提供方在本地执行明文计算或明密文计算，并加密上传中间结果。平台执行全局任务调度和全局密态计算，聚合成最终的加密计算结果，并返回给数据使用方。（5）结果获取与解密。数据使用方获得平台返回的加密结果，并使用自己的私钥解密，得到明文计算结果。

3.2 数据安全流通格式结构设计探索

20 世纪 70 年代，美国开发了传输控制协议 /网际协议（Transmission Control Protocol/Internet Protocol，TCP/IP），该协议用于不同网络中，以实现信息的传输，使得电子化信息数据广泛在网络上传播使用，极大地加速了全球网络的互联互通。其中 IP 报文与 IP 协议是关键。类比当前的数字经济时代，数据作为生产要素，需要在不同机构中以数据本身或者中间计算结果进行流通，同样可以组成一个数据融合网络。因此，本文提出数据安全流通格式结构的设计思路。

安全是数据要素流通的基础，必须在数据中将安全属性作为基因加入。如图 2 所示，本文提出的数据安全流通格式结构包含了数据 ID号、认证码、敏感等级、数据关联者、标签、数据签名、密码算法 ID、源数据节点地址、目的数据节点地址、加密的有效数据。

数据 ID 号表示该数据安全流通格式的唯一身份号，用于数据格式的审计定位。认证码用于数据完整性验证。敏感等级表示数据的敏感程度，可以对数据进行隐私等级的划分。数据关联者表示该数据归属的数据方以及权重，用于对数据归属权的界定。标签表示特点用途的标签信息，用于业务需求的数据分级分类标识。数据签名为数据关联者对该数据的签名，用于验证数据归属权。密码算法 ID 用于表示该有效数据的加密使用的加密算法。源数据节点地址表示数据提供方的地址，是数据的来源节点。目的数据节点地址表示数据将要流向的目的数据节点，以备进行数据处理。加密数据表示加密的有效数据，将有效载荷数据进行加密后形成的密文。

图 2 数据安全流通格式结构

如图 3 所示，数据融合网络实现不同地域、不同数据中心、不同机构间的数据流通，仍然以“原始数据不共享、数据流转必加密、数据可用不可见”的原则进行交换和共享。数据处理节点执行对数据的产生、存储、计算等操作，形成中间计算结果或者最终输出结果。当数据使用者在某个数据节点（称为主任务节点）发起请求时，该数据节点将会分析该请求所需要的数据资源，当本身数据资源满足需求时，将直接执行计算任务；当本身数据资源不满足需求时，将通过本身的数据目录向相邻数据节点发起请求，以此建立该请求所对应的数据相关网络（相关的数据节点称为从任务节点）。主任务节点根据从任务节点解析数据使用请求的计算任务，并将相关的子任务和全局流程发给从任务节点，以执行相应的计算任务。结合本文提出的数据安全开放利用平台架构，将在主任务节点生成最终的计算结果，并返回给数据使用者。

图 3 数据融合网络

3.3 数据安全开发利用平台系统组成

本文所提出的数据安全开发利用平台系统组成如图 4 所示，主要由数据提供接入端系统、数据使用客户端系统、数据开发利用协同系统、数据利用监管系统组成。数据提供方通过数据提供接入端系统接入到数据安全开发利用平台。数据使用方通过数据使用客户端系统访问数据安全开发利用平台。平台运营方负责运营和管理数据安全开发利用平台，执行数据开发利用协同系统和数据利用监管系统。

图 4 数据安全开发利用平台系统组成

（1）数据提供接入端系统。部署于各个数据提供方，其主要由客户端监管组件、数据资源注册与发布、本地存储资源、多功能密码算法融合加密、本地数据处理引擎组成。承担数据提供方的数据注册、本地存储、数据分级加密、本地明文计算、本地监管等功能。该系统主要以硬件设备方式提供。（2）数据使用客户端系统。部署于数据使用方，是数据使用方获取数据开发利用的入口，主要负责登录授权、请求发起、结果获取等功能。该系统可以是硬件、软件的形式。（3）数据开发利用协同系统。是数据开发利用平台的主系统，集成了海量数据安全存储系统、大规模密态数据协同计算系统、密态数据高效检索系统等密态处理引擎，并部署了数据资源目录、数据主题模板库、授权管理、数据处理任务智能分割与柔性调度、密态处理结果的正确性与完整性验证模块。主要承担数据安全存储、密文检索、密态计算、访问控制、监管接入等功能，并负责将数据使用者发起的请求进行解析和分割，协调各个数据提供方的计算任务。可以看出，整个数据开发利用协调系统执行的计算任务为全程密态计算。（4）数据利用监管系统。负责对数据开发利用协同系统、数据使用客户端系统、数据提供接入端系统执行全程透明监管，并对外提供监管接入应用程序编程接口（Application ProgrammingInterface，API），使得政府、公安等机构能够接入系统实施全程监管。该系统基于智能化技术实现事前授权、事中感知、事后追溯。

4 数据安全开发利用的应用场景

当前数字化进程不断加快，社会生活迈进了大数据化、智能化的时代，数据为产业赋能成效显著，数据要素安全流通已经成为数字经济健康发展的重要保障。本文提出了开放环境下大数据安全开发利用平台架构，为数据要素安全流通提供参考，能够实现“原始数据不共享、数据流转必加密、数据可用不可见”可控共享机制。本文给出该架构在跨机构数据交易、金融风控数据联合建模的应用场景。

（1）跨机构数据交易。为了激发数据要素活力，北京、上海等地区已经落地数据交易机构，将数据资源市场化，构建数据资源供应方和需求方之间的桥梁。本文所提出的解决方案，能够实现数据注册与发布，形成一个数据资源市场。如图 5 所示，数据使用方可以访问数据安全开发利用平台，查询线上发布的数据，按需挑选数据，付费使用。同时，算法提供方也可以将所研发的数据利用算法以加密形式部署到数据安全开发利用平台，以供数据使用方选择使用。本文的方案提供了数据监管接口，可以接入权威机构，保障数据市场的有序运行。

图 5 基于数据安全开发利用平台的跨机构数据交易应用场景

（2）金融风控联合建模。为了维护金融管理秩序，银行、证券等金融机构需要防范欺诈，实施风险控制。根据交易行为、用户特征、历史记录、环境条件等信息识别欺诈行为，是事前反欺诈的重要手段。但通常单一银行机构所拥有的数据量小，模型构建的样本或特征不足，无法建立推理准确度高的机器学习算法。如图 6所示，基于本文提出的数据安全开发利用平台架构，可以联合多家机构的数据进行联合建模，训练出准确度高、泛化能力强的模型算法。当一家银行获得新型欺诈行为相关的数据时，可以及时更新模型参数，使其他银行也能够快速具备预测和识别新型欺诈行为的能力，从而提高银行抗风险的能力。

图 6 基于数据安全开发利用平台的金融风控联合建模应用场景

5 结语

本文分析了开放环境下的数据安全挑战和数据安全开发利用的技术现状，针对性地提出了开放环境下数据安全开发利用平台的技术架构和系统组成。但面对当前日益严重的开放环境下数据安全形势，仍需要持续关注数据安全的防护，全面支撑数字经济的高质量发展，对此，提出以下几点应对建议。

（1）加大数据合规监管力度。近年来，国家高度重视安全建设，统筹发展和安全，推进行业数据安全保障能力提升，构建起坚实有力的安全法律屏障，形成了《中华人民共和国网络安全法》《中华人民共和国密码法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》“四法共治”的新局面，但国内数据监管仍存在技术标准不统一、行业资源配置割裂、监管力度不足等问题，建议结合顶层设计、法律法规，以及数据安全新监管的要求，出台相关数据监管技术标准规范，同时体现对过程和结果的合规要求，明确数据处理者既应当从过程方面积极履行数据安全保护义务，也要对数据安全防护的最终结果负责。

（2）加强数据安全技术创新。密码是保证数据安全的重要手段，加密数据存储与密态数据分析利用技术的结合能够更好地护航“新基建”场景泛在化发展，对我国数字经济的发展具有重大意义。虽然我国在数据安全存储发展方面已取得一定成绩，但仍然存在较大差距，加密存储使用不够普及，相关密态计算技术仍有瓶颈，未能得到广泛应用。建议进一步推进加密数据存储与密态数据分析利用技术的研究，深化可搜索加密、同态加密、安全多方计算等密态计算领域基础研究，形成海量数据加密存储与密态数据分析利用方面的实用化方案，为产业化提供基础。

（3）打造网络安全与数据安全协调发展。传统的城防式数据安全，主要是保护被传统物理网络多层包围的数据，这种防护体系仅适用于保护静态数据。如今，数据已成为新的生产要素，数据被充分共享流转以产生价值，传统的城防式数据安全已经难以满足需求。因此，建议网络安全与数据安全并重建设，针对数据本身进行主动式防护，面向失效的安全机制，将数据安全技术和网络安全问题进行融合，创造性地提供新框架、新方法，通过联动协同的纵深安全机制，构建有效防线。

（4）加快数据安全人才培养。人才是数据安全发展和数字经济健康发展的血液。数据安全技术研发需要专业性技术人才，企业组织机构的数据安全问题防护与合规性建设需要数据保护官（Data Protection Officer，DPO）。但由于数据安全技术研发涉及密码学、计算机科学、数据科学、人工智能等门类知识，是一门综合性很强的专业领域，同时，数据安全管理涉及数据质量、数据合规、数据资产、应急处置、安全检测评估等领域，管理复杂度较高。这导致数据安全技术研发、数据安全管理等方面的人才稀缺。因此，应该联合国内院校，结合国家数字经济健康发展需要，加强数据安全人才培养，建立数据安全人才岗位认证体系。

引用本文：张帅领 , 汤殿华 , 胡华鹏 . 开放环境下大数据安全开发利用的挑战和思考 [J]. 信息安全与通信保密 ,2022(5):59-72

作者简介

张帅领，男，硕士，工程师，主要研究方向为人工智能安全、工业互联网安全及网络空间安全等；

汤殿华，男，博士在读，高级工程师，主要研究方向为同态加密、安全多方计算、数据安全；

胡华鹏，男，硕士，工程师，主要研究方向为网络空间安全。

选自《信息安全与通信保密》2022年第5期(为便于排版，已省去参考文献）

声明：本文来自信息安全与通信保密杂志社，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

开放环境下大数据安全开发利用的挑战和思考

面向数据要素流通的商用密码安全保障体系研究

国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》

开源情报中数据过载问题的破解之道