近日,美国国家科学技术委员会(NSTC)发布《数据基础设施互联互通的框架》建议报告,旨在推进实验、知识、研究三大类基础设施融合发展,促进以数据驱动的交互式研究模式,推动人工智能等技术爆发式增长。本报告建议包括:由联邦层面发起交流平台;各机构间加快制定跨学科数据基础设施需求;各机构探索协同不同基础设施融合方式;研究如何利用商业云开展研究;培育数据领域基础设施从业人才。

数据基础设施是许多大型国家和国际项目与合作的核心推动因素。在主要实验和观测研究设施的研究数据规模和复杂性呈指数级增长的同时,计算和数据技术也在飞速发展,使研究数据的访问、互联、交互和分析变得更加容易。国家人工智能研究资源和国家战略计算储备等重大联邦倡议,以及开放科学和公众访问的联邦目标,都要求在科学数据和基础设施方面进行更高层次的协调。因此,研发基础设施(RDI)数据基础设施从业人员、RDI管理人员和联邦赞助商在规划、部署和运营数据系统和服务时面临着挑战,这些系统和服务必须能够跟上不断发展的科学需求和技术进步的步伐。需要解决的变数很多,而且由于RDI通常是相互独立开发的,因此所产生的数据解决方案可能大相径庭,这可能会阻碍更广泛的互操作性。

本报告旨在提高人们对RDI数据基础设施全面规划重要性的认识。本报告以共同框架的形式提供了一种可操作的方法,其中包含从业人员、管理人员和赞助商在规划、开发、运营和升级数据基础设施和互联性时应提出的关键问题)。报告进一步确定了当前RDI 数据基础设施的交叉挑战领域,这些领域将受益于联邦和社区的集体讨论和行动。最终目的是促进在RDI 数据和基础设施的共享和互操作性方面的合作与协作,从而最大限度地提高美国科学事业的整体科学影响和效益。

I.导言和目标

研究与开发基础设施(RDI)项目和合作是大规模的工作,其核心重点通常是数据采集、整理、共享和分发、分析和/或存档。随着数据驱动的互动研究新模式(如自动实验指导和实时分析)以及人工智能(AI)和机器学习(ML)技术的爆炸式增长,这些数据密集型任务正在不断扩大,为利用RDI 数据进行新科学研究提供了新的机遇。此外,RDI越来越多地寻求数据的互联和共享,以实现多学科和地域分布式合作。在国家层面,国家人工智能研究资源和国家战略计算储备等倡议,以及联邦关于开放科学和公共访问的要求,使得实验和观测设施、数据存储库和计算资源之间的协调和互操作性必须达到全新的水平。

因此,研究与发展机构面临着持续的压力,需要以新的和复杂的方式利用不断增长的数据,并广泛实施互联互通,以可持续的方式实现科学回报的最大化。然而,对于新的研究与发展计划项目来说,数据和互联互通方面快速发展的科学需求可能难以满足,而且可能会对现有研究与发展计划造成压力或超出其能力范围。技术解决方案也是多种多样的,与典型的RDI 开发时间表相比变化很快。RDI之间的数据共享计划可能会遇到多种形式的障碍,例如,由于数据或元数据格式的不兼容性、数据类型的复杂性以及管理和使用限制。不断变化的用户需求和使用模式也给长期提供支持带来了挑战。

总之,在规划或升级RDI 数据基础设施和互联性时,有许多变量需要解决。由于RDI通常是独立开发的,其数据解决方案通常也大相径庭,这可能会阻碍更广泛的互操作性。简而言之,有必要在共同原则和实践的基础上,在规划RDI 数据基础设施和互联互通方面,促进兼容的科学企业级方法,以最大限度地提高RDI 数据的整体科学影响和效益。

为了满足这一需求,2023年,美国国家科学和技术委员会(NSTC)RDI小组委员会责成数据基础设施工作组(DIWG)制定一个共同的高层次框架,用于在规划、开发、运行、评估和升级RDI 时考虑数据基础设施和互联性。本报告的主要目的如下:

  • 提高对数据基础设施全面规划重要性的认识,使其与共享和互操作性目标保持一致;

  • 提供可操作的方法,为共享和整合来自区域数据基础设施和区域数据基础设施之间的不同类型的数据和信息提供信息和帮助;以及

  • 促进机构间和国际间就美国区域数据基础设施生成的开放数据和受保护数据的共享和互操作性进行讨论,并为讨论提供信息,以成功实现与合作伙伴的共同目标。

本报告的主要受众是RDI 数据基础设施从业人员、RDI规划人员和开发人员以及联邦项目管理人员。本报告主要针对实际层面,既提供了规划框架,也指出了RDI 数据从业人员当前遇到的挑战领域。

最终,RDI小组委员会和DIWG 打算通过本报告来推进NSTC RDI 国家战略概览报告(NSORDI)中确定的国家目标,即维持一个强大、集成和灵活的研发企业,强调互操作性、开放性、透明度和以用户为中心的方法。为实现这些目标,我们提出了有关数据基础设施规划和实践的集体行动建议。

定义

研究与开发基础设施(RDI)是一个包容性术语,在《2021年国家科学研究与开发基础设施报告》中被定义为 “科技界用于开展研究与开发或促进创新的设施或系统”,包括三大类:

  • 实验和观测基础设施;

  • 知识基础设施(如共享的科学数据资产和资源,如科学藏品、资料库和档案,以及相关的专业知识);以及

  • 研究网络基础设施(即研究计算、数据和网络基础设施)。

区域直接投资的典型特点是规划、实施和运行周期长;侧重于明确界定的研究目标(或领域);涉及持续的联邦支持,可能还包括其他合作伙伴的支持。美国联邦机构还使用其他术语来描述RDI,如用户设施、任务、大型或中型设施以及研究基础设施项目和计划。虽然大多数RDI 位于国内并在国内运营,但其他RDI 也是国际伙伴关系和合作(有时也称为 “全球研究基础设施”)的一部分。

数据基础设施泛指一系列数据系统和服务,这些系统和服务共同促成了研究与数据基础设施的数据目标和支持的数据生命周期(见下文后一个定义)。这种基础设施既包括研究与发展机构内部以数据为中心的要素,也包括研究与发展机构可能以从属方式参与的任何外部独立数据资源。典型的例子包括:

  • 面向用户的数据工具、平台和服务,通常用于搜索、连接、访问、处理、加工和分析。

  • 数据管理和整理系统及协议,包括物理归档和存储系统、本地网络/传输系统以及整理技术和协议(如数据的数字标识符)。

  • 用于操作数据基础设施和执行数据工作流程的软件和中间件。

  • 数据访问和网络安全技术、政策和协议,包括用于身份管理和用户认证的技术、政策和协议。

  • 互操作性、共享和集成资源与服务,包括用户和机器访问的接口协议和标准,以及语义服务,如本体、分类和受控词汇服务。

其他大型系统,如高速网络系统、资料库、工作流管理系统和大型计算资源也可提供相关的数据资源和服务,如缓存和存储。

“生命周期"一词在本报告中有两种不同的用法,即RDI 项目生命周期和研究数据生命周期:

  • RDI 生命周期: 根据 NSORDI 2021 报告的定义,RDI 生命周期包括开发、建立、运行和维护、现代化以及重新利用或退役等阶段。不同机构可能会对每个阶段使用不同的术语,例如,开发阶段使用 “规划 ”和/或 “设计”,建立阶段使用 “建设 ”或 “实施 ”等。

  • 研究数据生命周期是一个术语,用来表示数据基础设施所支持的科学数据的各个阶段,如获取/收集、处理和生成数据产品、管理、分析、归档和保存、交付和共享以及退出。相关参考数据生命周期的例子有很多。

II.框架: 数据基础设施设计和互联互通的主要考虑因素

以下框架确定并论述了在研发基础设施生命周期的各个阶段考虑数据基础设施和互联互通 的五个主要领域:

  • 数据的科学目标和任务优先级;

  • 用户和利用

  • 数据清单、管理和指导;

  • 动态数据生态系统;以及

  • 项目管理与合作

每个专题领域都包含从业人员、管理人员和赞助商在制定要求时应提出的关键问题。该框架可视为一份清单或路线图,为数据基础设施和互联性的规划、开发、运行、升级和评估提供参考。

该框架旨在作为一个起点;可能还需要其他考虑因素,以满足单个区域数据基础设施项目或区域数据基础设施之间的伙伴关系和合作的具体需求。还应认识到,该框架的各个领域是相互关联的,一个领域的决策可能会影响到其他领域的决策,并为整体成本/效益决策提供信息。

数据的科学目标和任务优先级

开发 RDI通常是为了实现特定的科学或任务目标,这反过来又促使人们决定如何构建和管理项目的数据方面,以高效、有效和可持续地实现这些目标。

  • 哪些科学优先事项和目标驱动着数据基础设施投资选择?这些优先事项和目标可能包括 RDI 或合作的核心科学或任务目标、用户驱动目标(见用户和利用)以及其他高层次目标和要求。

  • 将采用哪些总体数据政策、社区规范和标准?激励因素可能包括确保敏感数据的安全、促进互操作性以及最大限度地开放和公平获取和使用共享数据。政策范例可能包括遵守开放科学和可查找、可访问、可互操作、可重用(FAIR)数据原则以及其他新兴数据制度。

  • 与数据有关的成功愿景是什么,有哪些可量化的标准和指标可以进行评价和评估?

用户和利用

以用户和使用为中心的设计方法是成功规划、运营和升级数据基础设施的基本驱动力。

  • 谁是数据基础设施为实现科学和任务目标而服务的主要用户?

    主要用户群通常与实现RDI 项目或合作伙伴关系的主要目标有关。

    o 在为其他各种类型或类别的用户提供服务(例如支持开放科学目标)时,是否有不同的优先事项?

  • 将支持哪些科学利用模式和工作流程?利用模式和工作流程的例子包括:实现多种来源数据的整合;处理时间敏感数据和流数据;促进数据管理、存储和整理;将数据连接到计算资源和其他资源;以及支持现场或远程数据处理和分析(见数据清单、管理和监护)。

    o 用户要完成研究目标,需要启用哪些示例或优先使用案例和参考工作流?

  • 用户与数据直接交互需要哪些支持方式?

    o 如何定义数据可用性要求?

    o 需要向用户提供哪些工具、功能和支持,以开展数据搜索和发现、下载、现场检查、整合、分析和可视化等互动活动?

    o 为实现研究目标,用户需要哪些类型的数据访问?

    o 将提供哪些类型的用户支持和参与,如文档、培训、协助和故障排除?

    o 用户是否有机会提供反馈?

数据清单、管理和指导

必须对哪些数据将得到支持、数据的预期用途以及数据治理和管理方面的考虑因素进行全面彻底的分析,以便为数据基础设施的规划、设计和实施提供信息。

  • 这项工作的数据清单是什么?

    o 每个数据源和数据产品有哪些特征,如位置、大小/数量、元数据、标识符、格式和标准,以及静态或动态性质?

    o已有或需要为数据定义哪些数据使用规则和限制,以及如何确定这些规则和限制?例如,这些规则和限制可能涉及科学、国家和经济安全、隐私、知识产权保护和许可考虑;所有权、所有权、法律、责任和监管制度;以及访问和共享的政策、社区规范和标准。

    o 预计数据清单将如何随时间演变?

    o 是否有必要从可信来源提供经过整理或具有权威性的数据集,并充分记录出处?

  • 如何在整个数据生命周期实施数据管理?

    o 将利用什么数据生命周期模型来指导设计和操作?

    o 每个生命周期阶段将开展或支持哪些活动,需要哪些数据管理能力?

    o 数据访问、使用和安全需要哪些系统、服务、协议和流程?

    o 对数据可用性有哪些要求?

    o 在 RDI或合作结束后,对生成和衍生数据产品的保留/归档、保存和整理有哪些要求和计划,以及如何做出这些决定?

  • 数据基础设施将如何满足数据治理和管理需求?

    o 基础设施将如何支持所需的数据模型、数据结构、语义系统、元数据和其他标准,以及对数据质量和完整性的控制?

    o 如何管理数据风险(如隐私、安全和完整性保护)?

    o 如何实施和确保符合操作性政策和标准?

    o 需要哪些与数据管理相关的文档?

    o 基础设施更新和升级的审查、评估和规划将以何种节奏进行?

  • 是否制定了程序,使工作人员和用户都能成功地适应不断变化的数据资源和 服务,同时保持必要的运作?

    o 将采用哪些教育、培训和外联方法来帮助用户从变化和增强中受益?

    o 为支持不断变化的数据基础设施技术和方法,需要开展哪些劳动力规划、发展和再培 训工作?

项目管理与合作

RDI项目和合作中数据基础设施的管理和合作考虑因素包括政策、法律、资金和监督机制,以确保主要利益相关者的参与以及数据基础设施的长期可持续性和适应性。

  • 谁是数据利益相关者,他们如何参与数据决策和数据使用愿景?

  • 管理和伙伴关系政策以及财务支持机制将如何确保项目的可持续性和复原力?例如,考虑因素可能包括系统的资金和成本管理、运营以及支持数据基础设施所需的劳动力。

  • 在合作或伙伴关系中,是否就如何开展和监督共同努力以及如何分配各自的角色和责任达成一致?

    o 如何共同或单独处理框架的所有要素?

    o对于数据和数据基础设施(例如,术语、语义、数据结构、元数据模式、管理法律、标准)是否有足够的共识,是否需要任何调整/翻译工作来支持共同努力?

    o 如何定期评估和评价共同努力,以确保达到预期绩效?

    o 需要哪些管理程序和决策机制来解决合作伙伴之间在数据和数据基础设施方面可能出现的分歧?

将框架付诸实践的建议

根据上述框架,可以为数据基础设施的整体设计、运行和性能制定一套简明的要求。实现这一目标的辅助方法和行动包括:

  • 进行正式的需求收集并确定参考用例,以推动数据基础设施和互联性的设计。

  • 确保在规划过程中充分考虑成本/效益和替代方案分析,特别是考虑采用/调整现有解决方案,而不是开发新的解决方案。

  • 结合科学审查和对不断变化的用户需求、方法和解决方案的持续评估,根据未来需求定期审查当前数据基础设施的能力。

  • 在数据基础设施和互联互通的合作或伙伴关系中,确保在规划阶段有足够的时间来最终确定所需的正式协议,特别是涉及敏感数据的协议(见第 III 部分中的敏感和安全数据的处理)。

  • 彻底评估支持数据和 RDI 生命周期所有方面的人员需求。确保有一支充足、合格的员工队伍对框架的所有方面都至关重要,也是最重要的运营成本之一(请参阅第 III 部分中的员工队伍发展与培养)。

III. 交叉挑战领域

在编写本报告的过程中,数据工作组确定了在开发和升级RDI 数据基础设施时经常面临 的几个普遍挑战领域:

  • 传输和管理大规模数据;

  • 数据集成和数据基础设施互操作性;

  • 在商业云中运行

  • 处理敏感和安全数据;以及

  • 劳动力发展和培养。

每个挑战领域都强调了关键的公开问题,这些问题涉及技术、数据管理和交付以及社会技术考虑因素。这些领域和问题将得益于跨机构和社区的进一步协同讨论、经验交流和行动,因此为第IV 部分的建议提供了依据。此外,读者还可参考RDI 小组委员会的报告 “美国联邦研究与开发基础设施”,该报告强调了RDI 面临的各种挑战领域,以及NITRD 大数据战略更新,该战略确定了需要从战略角度解决的科学数据企业领域。

传输和管理大规模数据

分布式RDI、大规模国内和国际合作以及复杂的学科和跨学科研究项目越来越依赖于从多个来源进行大规模数据传输和整合,以实现科学目标和/或促进合作伙伴和协作者之间的协调和信息共享。

常见的挑战包括:

  • 创建在大型合作项目的合作机构或分布式站点之间存储、共享和传输大规模数据的流程,同时维护数据的安全性和完整性。

  • 在低延迟和交互性非常重要的情况下,如实验指导、实时数据处理以及分布式/联合人工智能/移动式学习和地理上分散的 RDI 之间的推理,促进最佳数据流和处理。

  • 在数据传输能力有限的情况下,需要在源头对部分或全部数据进行现场分析,这反过来又需要提供本地数据访问服务、数据处理和分析工具以及计算资源。

数据集成和数据基础设施互操作性

合作研究和跨学科研究依赖于比较和分析来自不同RDI项目和其他来源的数据的能力。随着RDI数据基础设施项目努力实现互操作性,新出现的挑战包括如何有效管理新的运作模式,以及如何更好地与更广泛的研究界合作,以最大限度地提高科学回报。

共同的挑战包括:

  • 努力实现 RDI 项目之间通用互操作性的共同模式,摒弃点对点解决方案,以促进无缝协作、可扩展性、自动化,并提供统一的用户体验。

  • 确定促进互操作性规划和执行的管理方法。

  • 解决技术、数据收集协议和方法、标准和格式不兼容问题的方法,以及通过翻译层调和不同语义和元数据对模式的解释。

  • 确定何时集中共享数据基础设施最合适,何时维持联合互操作基础设施最合适的方法。

数据集成和数据基础设施互操作性

合作研究和跨学科研究依赖于比较和分析来自不同RDI 项目和其他来源的数据的能力。随着RDI数据基础设施项目努力实现互操作性,新出现的挑战包括如何有效管理新的运作模式,以及如何更好地与更广泛的研究界合作,以最大限度地提高科学回报。

共同的挑战包括:

  • 努力实现 RDI 项目之间通用互操作性的共同模式,摒弃点对点解决方案,以促进无缝协作、可扩展性、自动化,并提供统一的用户体验。

  • 确定促进互操作性规划和执行的管理方法。

  • 解决技术、数据收集协议和方法、标准和格式不兼容问题的方法,以及通过翻译层调和不同语义和元数据对模式的解释。

  • 确定何时集中共享数据基础设施最合适,何时维持联合互操作基础设施最合适的方法。

在商业云中运行

商业云平台提供各种可扩展服务,对一些数据密集型RDI 活动和服务非常有利。最近的例子包括将RDI的部分或全部数据托管和交付服务从内部系统(即实际位于RDI 或由RDI控制)迁移到商业云和/或其他外部管理平台;大规模数据再处理;以及大型人工智能模型的培训和使用[16,17]。使用商业云的方法多种多样,取决于RDI和赞助机构的任务以及技术和操作细节。要成功实现这种过渡,必须进行广泛规划、分析替代方案并认真实施,尤其是要避免科学服务中断,并了解和控制相对成本和效益以及风险。

常见的挑战包括:

  • 确定云数据服务的定义、界限和优先级的方法,以满足 RDI 项目、合作伙伴和用户的需求。这包括了解如何通过云服务支持所有用户和各种使用模式,以替代或结合内部服务。

  • 考虑基于云的预期数据生命周期活动和相关成本,包括数据上传、存储、处理和分析,以及必要数据工作流的出口或跨云提供商边界传输。

  • 考虑云服务和内部部署服务在安全性和合规性法规、身份管理、访问控制、最佳数据结构和格式以及敏感/安全数据处理等方面的兼容性和差异。

  • 管理服务协议,以确保运营的连续性,并保持更换云提供商的灵活性。

处理敏感和安全数据

不同的研发领域有时会涉及到不能公开共享且需要安全处理的敏感研究数据,如医疗保健和临床研究数据、某些社会科学数据、文化敏感数据以及安全和国防研究领域的数据。在这些情况下,可能需要专门的规划、专门的数据基础设施以及额外的数据治理和监管工作,例如通过安全的数据存储系统(“数据飞地”)、去标识化系统、严格的访问和使用协议以及特殊的治理和法律流程。

常见的挑战包括:

  • 对数据访问和数据完整性进行全面的风险评估和缓解规划。

  • 确定时间表并建立必要的流程,对用户进行政策、要求和实践方面的社会化培训,以确保对敏感数据和后续数据产品的保护和访问。

  • 在安全要求和威胁不断变化的生态系统中,建立支持数据安全存储和传输所需的技术和操作要求及专业知识。

人才队伍的发展和培养

随着数据密集型RDI研究的迅速发展,亟需培养和保持一支强大、多样化、有能力和可流动的美国研究数据队伍。这种需求给研究与发展机构带来了巨大压力,要求它们在竞争激烈、不断变化的劳动力市场上,采取有效措施吸引、培训和留住数据相关人员。数据基础设施工作人员代表着广泛的专业技能,涵盖基础设施开发和运行、数据管理以及数据的科学使用,确保最终用户能够最大限度地受益于研究数据基础设施的数据资源和服务。在培养下一代数据基础设施开发人员和操作人员方面,RDI也发挥着关键作用。

常见的挑战包括:

  • 确定在整个生命周期内进行 RDI 项目劳动力规划所需的数据和数据基础设施技能,包括开发和支持基于云的基础设施所需的各类专业知识,而不是内部基础设施。

  • 通过招聘和留住人才的做法、对不同社区的宣传、激励措施以及培训和再培训机会,应对数据劳动力的竞争性和不断变化的性质。

  • 通过为整个数据生态系统中的相关专业角色(如 “数据工程师”、“数据管理员”、“数据经理 ”和其他此类职位)制定协商一致的定义,促进数据基础设施人才队伍的招聘、培训和流动。

IV. 集体行动建议

本节建议机构和社区采取集体行动,传播规划数据基础设施(第II 节中的框架)和应对共同挑战领域(第III 节中确定)的做法和方法,以推进技术发展。

传播和交流实践

广泛传播和专家交流数据基础设施规划的实践(如框架所体现的),可以加速现有方法和新方法在RDI 生态系统、科学学科和国际边界之间的相互促进。

建议1:联邦机构应确定或建立一个定期论坛,供联邦管理人员、RDI领导者、合作伙伴、从业人员和领域专家讨论和交流数据基础设施规划和实施的方法。

协调 社区层面的合作活动为科学学科内部和跨学科的跨学科RDI项目的战略规划和需求收集工作提供了信息。类似的方法将有益于多学科数据基础设施的规划,广泛地包括那些能够谈论科学目标和利用、跨项目合作以及技术、法律和操作要求和解决方案的人。

建议2:各机构应酌情考虑开展合作活动,对各学科的数据基础设施需求进行共同预测,为各机构的规划提供依据。

不同机构支持的数据基础设施的互操作性需要大幅提高,以促进多学科综合研究,并支持跨越数据采集、计算和分析的地理分布式工作流程。协调工作可包括就特定学科要素(如服务于某一研究领域的工具和资料库)和跨学科要素(如数据缓存、工作流系统和网络)开展合作,为所有研究领域提供广泛支持。

建议3:各机构应探索联合或以其他方式协调其RDI 数据系统和服务的机会,以促进综合科学 探索和发现。

许多机构已经为商业云服务制定了量身定制的安排,以支持各自的大型科学活动。多机构在云服务方面的合作可能会在总体成本、服务灵活性以及促进新的、广泛有用的混合方案(如将基于云的数据与政府支持的计算资源连接起来)等方面带来益处。

建议4:各机构应共同研究如何为政府支持的研究活动联合使用商业云服务。

国际机构越来越关注数据共享基础设施和相关实践。美国对这些论坛的参与将影响其中的对话,使美国的研究与发展(RDI)政策和实践与国际合作伙伴的政策和实践更好地协同增效,从而加强合作,提高科学影响力。

建议5:各机构应继续协调,在相关国际论坛上明确代表美国在大规模数据交换与合作方面的政策和实践考虑。

劳动力 在规划和运行RDI数据基础设施时,必须充分考虑到多样化和灵活的技术人才队伍这一关键需求。利用国家的多样性来培养和壮大这支队伍,将极大地影响和维持支持美国科学事业的关键数据基础设施的竞争力。

建议6:各机构应共同探讨整个科学企业的数据基础设施所需的技能类型,并确定扩大数据 基础设施从业人员的外联、招聘、培训、职业发展和流动的方法,例如通过制定共同的职 位说明类型来促进招聘流程。

声明:本文来自天极智库,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。