当前,数据基础设施是许多国家级和国际研发基础设施的核心推动力,随着人工智能和机器学习的爆炸式增长,数据驱动的交互式研究新模式快速兴起,要求以全新方式利用不断增长的数据,并实现广泛的互联性,最大程度提高科学回报。为此,美国国家科学技术委员会(NSTC)于2024年12月发布《研发基础设施项目数据基础设施与互联性构建框架》报告,提出了构建研发基础设施中数据基础设施及其互联性的通用框架,为美国各联邦机构提供参考。通用框架涉及数据科学目标与重点任务、用户与使用情况、数据类型与管理、动态数据生态系统等五大领域关键问题;大规模数据传输与管理、数据集成与数据基础设施互操作性,商业云平台中运行、敏感与秘密信息处理等五大跨领域挑战。

研发基础设施的数据基础设施与互联性建设正在成为越发重要的问题,原因有二:一是人工智能、机器学习等新兴技术开辟了全新的数据驱动型研究模式,对研发基础设施中的数据基础设施提出了更高要求。自动化实验、实时数据分析等数据驱动型研究模式使研发基础设施需要处理的数据任务的规模和复杂性呈指数级增长。二是互联性正在成为许多研发基础设施的全新挑战。无论是跨学科研究还是国际合作都需要在不同研发基础设施之间高效快速地传输和管理大数据,提高互操作性。为此,NSTC发布《研发基础设施项目数据基础设施与互联性构建框架》报告,建立了专门用于指导研发基础设施中数据基础设施与互联性构建的框架。

一、五大领域关键问题

在设计研发基础设施中的数据基础设施及其互联性时,需要考虑以下五大领域的关键问题。

(一)数据的科学目标与重点任务

通常而言,研发基础设施是为了实现某种科学目标或重点任务建设的,其科学目标和重点任务会对数据构建和管理产生深远影响。具体来看,需要考虑:①对于研发基础设施的数据基础设施建设来说哪些科学目标和重点任务会产生决定性影响?例如,实现某一特定的科学目标或重点任务、进行某种合作、服务某种类型的用户等。②为实现上述科学目标和重点任务应推行怎样的总体数据政策、规范和标准?例如,确保敏感数据安全、提高互操作性、尽可能开放且公平地访问和使用共享数据、维护开放科学、坚持FAIR(可查找、可获取、可互操作、可重复利用)原则等。③判断是否实现上述数据目标时应采取哪些量化指标?

(二)用户与使用情况

以用户及其使用为中心的设计是数据基础设施规划、运行和升级的根本动力。具体来看,需要考虑:①数据基础设施为实现科学和任务目标而服务的主要用户是谁?通常来说,主要用户是由研发基础设施需要实现的主要目标决定的,同时还需考虑在服务不同用户时是否有不同的优先事项(如支持开放科学目标)。②结合用户需求应支持哪些科学应用模型和工作流程?相关模型和工作流程包括:实现多个来源的数据集成、处理时间敏感型数据与流数据、连通数据资源与计算资源、支持本地或远程数据整理与分析。③为实现用户与数据的直接交互应提供哪些支持方式?例如,如何定义数据可用性要求;为用户提供哪些工具、能力和支持来进行数据搜索、下载、现场检查、集成、分析和可视化等交互活动;用户需要怎样的数据访问来完成其研究目标;应提供哪些类型的用户支持,如文档、培训和故障排除;用户是否有机会提供反馈等。

(三)数据类型与管理

数据基础设施的规划、设计和运行需建立在针对数据库全面分析的基础上,包括数据类型、用途、治理与管理模式。具体来看,需要考虑:①为实现数据用途应构建怎样的数据库?例如,以预期数据用途为标准明确数据库范围与数据主要特征,制定数据利用与限制规则以及访问和共享政策。②如何实现数据的全生命周期管理?例如,应使用哪些数据生命周期模型来设计和进行数据管理;生命周期各阶段应开展和支持哪些活动并需要具备哪些数据管理能力;数据的访问、使用和安全需要哪些系统、服务、协议和流程进行支持;数据可用性要求有哪些;研发基础设施关停后如何处理数据(分类归档还是删除)等。③建立怎样的数据治理或管理模式?例如,如何支持所需的数据模型、数据结构、语义系统、元数据、数据质量和完整性控制;如何管理数据风险(如隐私、安全性、完整性等);需要哪些与数据管理相关的文档。

(四)动态数据生态系统

研发基础设施的科学目标、生成数据以及数据支持技术不断发展,其数据生态系统是动态变化的。因此,数据基础设施及其互操作性设计也应能够灵活动态调整。具体来看,需要考虑:①在设计数据基础设施时如何最大化实现互操作性?例如,在设计阶段如何利用一体化方法实现项目目标,涉及与其他公共和私人基础设施、系统和资源的互操作性与集成;使用哪些接口和标准来实现互操作性并简化与其他资源的集成。②在研发基础设施全生命周期的各阶段如何充分进行前瞻性规划?例如,采取哪些措施来收集数据基础设施的未来需求;如何对基础设施的更新或升级进行审查、评估和规划。③如何确保研发基础设施的员工和用户能够适应数据资源与服务的不断变化?例如,为适应数据基础设施和方法的不断发展,应进行哪些劳动力规划、培养和再培训工作。

(五)项目管理与合作

对于维护数据基础设施的可持续性和韧性来说,确保关键利益相关方都切实参与项目管理十分重要,只有各方在决策过程中充分表达意见,才能自觉高效地执行项目要求。具体来看,需要考虑:①明确利益相关方有哪些,需要哪些机制确保其切实参与决策?②需要哪些机制确保研发基础设施的可持续性和韧性?例如,管理机制、合作伙伴政策、财务资助机制等。③在合作伙伴关系中,如何就合作内容及各自权利义务达成一致?例如,如何就数据和数据基础设施中的术语、数据结构、元数据模式、适用法律、标准等形成共识;如何定期评估各方工作,以确保达到预期目标;需要哪些决策机制和管理流程来解决各方间出现的分歧等。

二、五大跨领域挑战

除上述各领域面临的关键问题外,对于数据基础设施与互联性设计而言,某些跨多个领域的共性挑战也值得关注。

(一)大规模数据传输与管理

当前,分布式研发基础设施、大规模国内外合作以及跨学科研究项目越来越依赖于来自多个来源的大规模数据传输和集成。在这一领域,主要挑战包括:①应建立怎样的流程,以在研发基础设施各参与方间或分布式站点间存储、共享和传输大规模数据的同时,并确保数据的安全性和完整性;②如何在低延迟或交互性极端重要的情况下实现最佳数据流和处理,如实验指导、实时数据处理、跨地域分布式/联邦机器学习与推理;③如何在数据传输能力有限的情况下进行本地数据分析。

(二)数据集成与数据基础设施互操作性

对于合作研究与跨学科研究来说,对比分析不同来源的数据至关重要,因此需要进行数据集成并提高互操作性。在这一领域,主要挑战包括:①如何在研发基础设施各组成部分间建立能够提高数据互操作性的通用操作原则,以实现无缝协作、可扩展性和自动化;②如何解决技术、数据收集传输协议与方法、标准与格式方面的兼容性问题;③数据基础设施有中心化与分布式两种数据架构,如何根据研发基础设施的具体情况进行选择。

(三)商业云平台中运行

随着研发基础设施数据任务处理量不断增大,利用商业云平台作为数据外援成为常见选择。在这一领域,主要挑战包括:①明确哪些数据服务可由商业云平台提供;②根据商业云的数据生命周期,规划研发基础设施数据向商业云平台的上传、存储、处理与分析的各个阶段;③明确商业云平台与本地数据服务的兼容性情况,解决安全性与合规性、身份管理、接入控制、最佳数据结构、敏感数据处理等方面问题;④确保能够更换云服务提供商,进而确保相关服务运行的连续性和灵活性。

(四)敏感与秘密信息处理

许多研发基础设施数据具有敏感性,如医疗数据、涉及隐私的社科研究数据、国防数据等。妥善处理这些数据带来诸多挑战,主要包括:①需建立专门的安全数据处理系统,如数据飞地、去身份化系统等;②解决研发基础设施不同参与方间进行数据共享和重用相关法律问题;③对数据访问和数据完整性进行全面的风险评估,并制定风险缓解措施;④明确安全存储和传输数据所必需的技术要求、运行要求和专业知识,在不断变化的安全要求和威胁中安全存储和传输数据。

(五)劳动力发展与培养

随着研发基础设施的数据处理需求日益复杂,培养、吸引和留住具有数据能力的员工至关重要。在这一领域,主要挑战包括:①明确研发基础设施全周期内所需的数据相关技能,包括基于云的专业知识;②为数据生态系统中的相关专业人员(如数据工程师、数据管理员、数据经理等)制定共识定义,并为其提供更具前景的职业发展路径。

三、政策建议

目前,美国研发基础设施多由不同联邦机构主管或资助,管理机制各不相同。为提高这些研发基础设施之间的数据基础设施互联性,报告提出如下建议:一是建立用于探讨和交流数据基础设施规划与部署方法的定期论坛,围绕研发基础设施的生态系统、科学领域、国际边界等问题的现有和新兴方法进行讨论。二是必要时发布数据基础设施跨学科需求预测报告,并聚焦所有学科研发基础设施的共性问题,如科学目标与用途,研发基础设施之间的合作,技术、法律与运行要求等。三是探索能否集成或协调不同联邦机构下属研发基础设施的数据服务系统,推进跨学科研究。四是探索能否实现不同联邦机构的商业云服务集体采购,实现降本增效。五是形成美国政府统一的研发基础设施大数据合作与交流国际立场,并在国际组织中推进符合这一立场的国际合作。六是加强不同联邦机构间统筹协作,加快数据基础设施专业人员队伍建设。

编译:中国科学技术信息研究所 王晓菲 张丽娟

审校:中国科学技术信息研究所 张丽娟

来源:《科技参考》2025年第7期

声明:本文来自科情智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。