数字全球化背景下,数据基础设施作为释放数据价值的基础性支撑,其重要性日益凸显。为此,美国国家科学技术委员会于2024年12月发布《数据基础设施互联互通的框架》建议报告,呼应了此前美国白宫科技政策办公室发布的《美国联邦研究与开发基础设施:美国全球科学领导地位、经济和国家安全的基础》,以促进数据驱动的交互式研究模式,推动人工智能等技术爆发式增长。
本期,我们对其中有关研究与开发基础设施(Research and Development Infrastructure,以下简称“RDI”)生命周期的各个阶段实现数据基础设施互联互通的考虑因素,以及在开发和升级数据基础设施过程中如何处理敏感和安全数据的问题展开详解,以期为读者和相关研究提供参考。
数据要素可信流通研究中心
原文链接点击底部“阅读原文”跳转
何为RDI?
RDI,即研究与开发基础设施,在美国《2021年国家科学研究与开发基础设施报告》中被定义为 “科技界用于开展研究与开发或促进创新的设施或系统”,是一个包容性较强的术语。按照性质分类,主要包括实验和观测基础设施(Experimental and Observational Infrastructure)、知识基础设施(Knowledge Infrastructure)、研究网络基础设施(Research Cyberinfrastructure),三者共同构成了支撑研发的综合资源。早期RDI主要集中于“大科学”(Big Science),即建设大型实验平台和设施,如粒子加速器、地面望远镜、研究反应堆等。随着各学科不断融合、研究数据量和复杂度呈指数级增长,当前科学界越来越依赖RDI互联互通形成新的科研成果。特别是在互联网和仪器控制软件的支持下,研究人员可以更加快速便捷地远程访问和使用RDI。
美国对RDI投入具有较长历史。第二次世界大战后,就对联邦实验室、专业设施和设备进行了大量投资,建立起许多世界级研发基础设施。20世纪60年代,又实施了一批研究计划,投资建设相关设施,促进了研发事业发展。通过RDI的持续高投入,美国科学技术发生变革性进步,创造出大量新产业、新主体、新商业模式,成为推动经济社会发展的关键动力源。
数据基础设施设计和互联互通的主要考虑因素
报告从五个主要领域确定并论述了在研发基础设施生命周期的各个阶段考虑数据基础设施和互联互通的因素:
· 数据的科学目标和任务优先级;
· 用户和利用;
· 数据清单、管理和指导;
· 动态数据生态系统;
· 项目管理与合作。
数据的科学目标和任务优先级
开发 RDI通常是为了实现特定的科学或任务目标,这反过来又促使人们决定如何构建和管理项目的数据方面,以高效、有效和可持续地实现这些目标。
考虑三个问题:
· 哪些科学优先事项和目标驱动着数据基础设施投资选择?
· 将采用哪些总体数据政策、社区规范和标准?
· 与数据有关的成功愿景是什么,有哪些可量化的标准和指标可以进行评价和评估?
用户和利用
以用户和使用为中心的设计方法是成功规划、运营和升级数据基础设施的基本驱动力。
考虑三个问题:
· 谁是数据基础设施为实现科学和任务目标而服务的主要用户?
· 将支持哪些科学利用模式和工作流程?
· 用户与数据直接交互需要哪些支持方式?
数据清单、管理和指导
必须对哪些数据将得到支持、数据的预期用途以及数据治理和管理方面的考虑因素进行全面彻底的分析,以便为数据基础设施的规划、设计和实施提供信息。
考虑四个问题:
· 这项工作的数据清单是什么?
· 如何在整个数据生命周期实施数据管理?
· 数据基础设施将如何满足数据治理和管理需求?
· 是否制定了程序,使工作人员和用户都能成功地适应不断变化的数据资源和服务,同时保持必要的运作?
动态数据生态系统
RDI 数据的科学目标及其相关技术和应用处于持续发展的状态,因此在设计过程中应当积极考虑这种持续变化,以确保最终的数据基础设施和互操作性方案具备灵活性、适应性,并能够持续访问数据。
考虑三个问题:
· 如何设计数据基础设施以最大化互操作性?
· 前瞻性发展因素将如何融入研发创新(RDI)生命周期的各个阶段?将采取哪些流程来收集数据基础设施的预期未来需求和要求?
· 是否有相关流程确保员工和用户在保持必要运营的同时,能够成功适应不断变化的数据资源和服务?
项目管理与合作
RDI项目和合作中数据基础设施的管理和合作考虑因素包括政策、法律、资金和监督机制,以确保主要利益相关者的参与以及数据基础设施的长期可持续性和适应性。
考虑三个问题:
· 谁是数据利益相关者,他们如何参与数据决策和数据使用愿景?
· 管理和伙伴关系政策以及财务支持机制将如何确保项目的可持续性和复原力?
· 在合作或伙伴关系中,是否就如何开展和监督共同努力以及如何分配各自的角色和责任达成一致?
处理敏感和保密数据的挑战
报告对在开发和升级RDI 数据基础设施时经常面临的几个普遍挑战领域进行了归纳,其中重点强调了敏感和保密数据的处理问题。报告提出,不同的研发领域有时会涉及到不能公开共享且需要保密处理的敏感研究数据,如医疗保健和临床研究数据、某些社会科学数据、文化敏感数据以及安全和国防研究领域的数据。在这些情况下,需要专门的规划、专门的数据基础设施以及额外的数据治理和监管工作。
对此,报告列举了可能的应对措施:
· 对数据访问和数据完整性进行全面的风险评估和缓解规划。
· 确定时间表并建立必要的流程,对用户进行政策、要求和实践方面的社会化培训,以确保对敏感数据和后续数据产品的保护和访问。
· 在安全要求和威胁不断变化的生态系统中,建立支持数据安全存储和传输所需的技术和操作要求及专业知识。
相关启示
从以上数据基础设施设计的考虑框架和对敏感保密数据的处理不难看出,数据安全仍是美国RDI数据基础设施建设中的重要指向。其在数据开放共享与安全的平衡、动态数据生态中的安全性挑战、数据全生命周期管理方面提供了有益启示。
数据开放共享与安全的平衡
报告强调了数据共享和互操作性的核心价值,尤其是在推动开放科学和跨学科合作方面的作用。对于我国而言,随着大数据、人工智能及开放数据战略的推进,数据共享和科学资源的开放正在成为提升科研能力、促进技术创新的重要手段。然而,数据共享和开放过程中,如何平衡开放性与数据安全之间的矛盾,是亟待解决的关键问题。
在实践中,数据共享需要在保证安全性和隐私保护的前提下进行。例如,建立严格的数据分类和分级保护体系是确保共享数据不被滥用的基础,通过加密、去标识化等技术手段,降低数据泄露的风险。此外,在数据访问过程中,采用多层次的权限管理与审计机制也十分重要。通过细化访问控制策略,可以确保敏感数据仅由授权人员访问,同时通过审计记录避免不当使用或泄露情况。
动态数据生态中的安全性挑战
随着数据生态系统日益复杂,数据的动态流转成为常态,尤其是跨部门、跨地区的合作更加频繁。我国在推动数据基础设施互联互通的过程中,必须重视数据在不同系统间流动时的安全性。如何确保不同系统间的数据交换和共享不会引入安全漏洞,成为一个至关重要的问题。
对此从报告中可以看到,跨部门和跨地区合作中的安全标准化尤为重要。尽管各参与方的需求和技术方案各异,但统一的数据安全标准和安全规范是确保数据在交换过程中的安全性与合规性的重要保障。此类统一的标准不仅要覆盖数据交换过程中的加密和认证技术,还应涵盖数据存储、处理、传输等各环节的安全保障措施。
数据全生命周期管理
随着数据生态系统的不断发展和数据量的激增,数据生命周期管理变得愈加重要。报告强调,数据销毁和归档作为数据生命周期中的关键环节,因此必须得到足够重视。
我国数据相关政策法规主要指向数据价值挖掘,对数据销毁和归档两大环节较少提及。对此应当注意到,对生成和衍生数据产品的归档/销毁相关技术标准、系统的建设不仅是管理的必要手段,更是降低数据泄露和滥用风险的重要保障。
图片来源:白宫官网
责任编辑:小贝
审核校对:唐纪元
声明:本文来自数据要素可信流通研究中心,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。