美国国防部正在努力成为“一个以数据为中心的组织,以速度和规模优势使用数据,从而获得作战优势并提高效率。”企业数据网格服务(又称数据集成层)是美国国防部首席数字与人工智能办公室(CDAO)为支持联盟联合全域指挥控制(CJADC2)的一项主要工作(另两项是全球信息优势实验GIDE以及任务应用)。2024年3月,CDAO发布了《数据网格参考架构(DMRA)》2.6版草案,旨在从能力、运行、服务、用例等方面提供一个蓝图,指导并约束数据网格解决方案架构的实例化。以下简要介绍相关内容。

1 概述

CDAO认为,在实施CJADC2中,战斗有效性越来越依赖各种数字集成的系统之系统。指挥官、操作人员、采购者以及工业界都在努力访问数据,集成数据,并在数据顶层建立并部署各种软件应用。为了更好地实现“以数据为中心”的优势,CDAO在对不同合作伙伴的解决方案架构进行了数月评估,并在由此产生的对需求、功能和用例的全球和本地化理解的基础上出台了目前这份DRMA。CDAO指出,DMRA是一种指导解决方案架构与体系架构如何互操作的高层框架,它从企业层面开发,使用战略方法指导美国防部的去中心化数据管理行动,以加速生产并能够扩大决策优势成果。

DMRA支持多个战略文件,特别是《美国国防部数据、分析和人工智能采用战略(2023年)》。该战略指出:美国防部需要在数据提供者和用户中实现一种去中心化网络,这一网络将由基于过程的组件与技术组件组成,可跨数据域分配所有权,并将数据视为产品。这种网格架构正是通过去中心化方法,支持跨域数据分析。

2 DRMA基本概念

如图1所示,DMRA支持两个国防部任务区:“作战指挥室”和“战场”。任务区的行动者(人或机器)需要遵循一定的行动路径组合(如左侧所示)来开发网格右侧的能力。图1旨在说明特定行动者(人或机器)如何与数据网格交互以实现指定任务,以及行动者如何在复杂的分布式数据环境中实现可能发生的各种协作/交互类型。其中,行动者的多样性涉及从作战指挥室到战场的各种数据域、数据源、格式、策略和其他因素。

作战指挥室行动者要求查询网格获得经验证据,为资源分配和采购等决策提供支持。其典型示例包括国防部副部长(DSD)等领导者,以及使用大型语言模型(LLM)提出行动方案的机器人。

战场行动者也要求查询网格获得经验证据,为战术决策提供支持,如作战计划执行、后勤和维护,以及机器-机器(M2M)边缘决策。典型示例包括前线指挥官、边缘设备和维护主管。

“行动”是指由行为者执行的能力发展活动,包括研究、开发、部署、监测以及测试和评估,见图1左栏。一些典型示例包括:研究→AI工程师、开发→UI/UX专业人员和数据科学家、测试评估(T&E)→AI工程师(测试和评估部门)以及验证其结果的数据科学家、部署→依靠GPS指示的坦克驾驶员以及执行任务的战术指挥官、监测→数据科学家等。

“问题”是行动者向网格提出的能力应用查询,参见图1右栏。典型示例包括:

· 兵力规划:国防部长、国防部长办公室、参谋长联席会议主席、参谋长联席会议、联合参谋部,各作战司令部需要关于对手、美国、盟军部队以及工业基地能力的属性与状态数据,以分配资源用于开发各种新型国防部平台、武器、系统与软件,以及人员、地点与其他事宜的准备。

· 兵力分配:由于威胁的迅速变化,因此美国防部长命令流程需要利用有关敌方、美国和联军部队状态的数据,包括能力、战备水平以及各种规划的现代化和培训情况,以为应对最新威胁提供参考。

· 部队任务分配:除兵力分配问题数据外,作战司令部(CCMD)、联合特遣部队(JTF)和军种司令部(SCC)向其指挥控制下的部队分配任务,需要关于武器装填、能力与状态的信息,以及后勤状态。

· 任务执行:除上述组合外,联合特遣部队、特种作战指挥官和战术指挥官还需要火控质量的跟踪和瞄准数据与战斗损失评估数据,以匹配部队能力与任务需求,获得法律和情报专家的批准,并对快速变化的战场做出反应。这些能力在连接断开或降级的环境中也要确保可用,执行时间从几秒到几天不等。

· 联合指挥控制:美国和联盟伙伴需要双向共享敌方和部队状态有关数据,以及可用于各自目标定位周期的数据。此问题单独列出是基于联盟协作与作战的独特架构需求,但它仍须融入上述示例的解决方案中。

3 DRMA的能力视图与运行视图

美国国防部希望拥有一个完全可互操作的网格,可以方便实现跨数据域的数据发现与访问,从而在速度和规模两方面实现决策优势。DMRA提出了如何最佳编排或整合各要素的概念架构。但是,并不存在唯一正确的网格实现,因为每个组织和任务都有不同的需求、特性和资源。因此,真正的挑战是开发一个负责的、可分解的框架,用于将组件组合在一起,而不是制定强定义的标准。

图2能力视图愿景为DMRA中描述的能力提供了一种战略背景,描述了如何克服“问题”(缺乏互操作性)以实现战略愿景和高层目标。

图2左侧说明了“问题”:数据是孤立的,互操作性由于无法流畅地翻译标准和语言而受到损害。中间的彩色点表示数据有不同的来源、格式、维度和大小。它们可能是来自机构数据库的结构化或非结构化数据,或者直接来自传感器和边缘设备,亦或是用于模型训练的标准数据。而无论来源和格式如何,中央管道使它们都可以访问任何合适的端点,如CDAO的Adtaxi或美陆军的Vantage。其中每一项都采用访问和隐私控制来授予其用户数据访问权限,以实现其指定的最终目标。

图3高层运行视图OV-1描述了数据和数据团队如何利用DMRA的运行概念。

在底层,数据产品团队(DPT)使用数据和约与策略自动化来验证数据质量,并实施“数据即产品”管理,从而使自助(self-serve)用户可以使用数据产品(DP)。这些用户现在可以相信数据已针对其用例得到适当处理。

顶部横格表示多个治理和访问功能监视特权。治理小组通过规定互操作性、文档、安全、隐私、分类和合规性策略,通过联邦式治理定义DP质量。因此,当一个DP符合治理小组所认同的策略时,它就很容易被使用。DPT定义并维护为每个任务用例定制的数据质量和核心数据网格服务。核心服务允许DPT管理数据产品并由治理小组发布策略,同时允许用户订阅数据产品。

在最右边,支持团队是一个由数据平台代表组成的联合小组,他们为领域团队和消费者提供支持。他们是数据网格的倡导者,支持在整个企业中采用数据网格。

执行图中所示动作的行动者可以是人或机器。这在整个DMRA至关重要。该框架在机器-机器(M2M),人-机器(H2M)和人-人(H2H)三方面都有改善,从而也支持美国防部对联盟联合全域指挥控制(C-JADC2)的需要。

4 行动者与角色

网格是一种去中心化社会技术方法,用于在组织内部或跨组织的复杂和大规模环境中共享、访问和管理分析数据。其中,人类的输入/输出创造了数据网格的价值。因此,识别行动者及其角色至关重要。

定义系统的行动者及其角色对于制定系统用例非常重要,因为它指出了系统的主要应用、需求、功能和交互。行动者(人或机器)是与系统交互的外部实体。角色是行动者执行的与系统相关的特定职责或任务。通过定义行动者和角色,可以指定每个行动者对系统的期望以及系统对每个行动者的期望。通过这种方式,可以设计用例来描述系统如何满足行动者的需求和目标。DMRA中的典型行动者包括:

域团队:一个由数据专业人员组成的跨职能团队,专注于开发可发现的数据与易用产品。

· 数据产品负责人:监督数据产品的开发和交付;定义产品的远景、范围和路线图;与数据工程师、数据科学家、分析师和其他跨职能团队协作,确保产品的质量、可用性并对齐企业目标和需求。

· 数据工程师:创建和维护服务于特定域的DP;确保DP可靠、安全、可扩展,并可供数据使用者访问;与数据网格中其他数据工程师和数据产品所有者协作,分享最佳实践并遵循通用标准。

数据消费者:执行分析、做出决策或创建产品或服务;访问和探索与其需求相关、可靠和可理解的数据;可能使用各种工具和方法查询、可视化或操作数据,取决于其技能和目标;对于各种用例,此行动者可以有多种形式,即服务或机器人客户、机器学习工程师、数据工程师、数据科学家或分析师。

数据平台工程师:构建和维护支持数据网格的数据基础设施和平台;为跨数据网格提供用于数据治理、质量与互操作性的工具与框架。

数据治理小组:定义数据质量、安全性、隐私和跨数据网格互操作性的标准、政策和最佳实践;监控数据域性能。

支持团队:在企业内部推广数据网格概念;在采用数据网格初期,需要进行大量解释工作,支持团队可以充当数据网格的倡导者;帮助领域团队成为数据网格的正式成员;支持团队由在数据分析、数据工程和自助数据平台方面拥有丰富知识的专家组成。

5 基线服务与服务模式

CDAO建议了美国防部数据网格基线的15项基本服务,它们对应网格的基本能力。

(1)唯一标识符(UID):其功能是在适用域内生成唯一的排序UID。例如,美国陆军(域)可以有三个序列UID,分别用于现役、预备役和州国民警卫队。UID服务用于生成唯一的标识符,这些标识符在时间上是不冲突的、持久的,并且可以归属于任何对象

(2)语义服务:在接收到任何给定语言集元素时,确定该元素是否存在于企业已知词汇表中。语义服务将管理每个受控词汇表(CCV),以确保对每个术语的完整理解。

(3)联邦数据目录:数据网格目录是一个包含美国防部数据的元数据的参照。通过良好构建并与CCV、UID和BOM(物料清单)相结合,它支持在所有参照的数据资产(包括数据产品)上进行搜索。

(4)数据和元数据配置文件:这是一种构成某一资产的所有组成的、机器可读取的列表。支持从简单搜索到高级AI的组件动态管理、资产发现以及对血统、来源和谱系的深入了解。

(5)策略访问控制:利用与数字策略管理匹配的实体行动者的元数据,管理对数据产品的访问。策略控制与数字策略管理紧密结合,并且依赖于数据产品搜索、联邦数据目录和[x]BOM(一种以BOM多视图的组织方式完成产品生命周期数据管理与应用的理念)。

(6)数字策略管理:数字策略管理服务负责管理数字策略的创建、维护和审核。

(7)数据交换管理:这需要考虑美国防部所有的数据交换限制,从广泛访问(应用程序接口API)到云存储解决方案,再到某些传统意义上拒绝访问的环境(如海上船舶或太空卫星)。

(8)产品搜索:该功能包括从原始、未接触的数据产品,到仪表板,再到高级AI算法的任何数据产品。搜索功能对于可用性至关重要。它使实体能够使用元数据和内容搜索,找到现有产品。而一旦访问确认,所有返回数据都可以在视图中使用。

(9)Pub/Sub(发布/订阅):它允许实体之间的信息移动而无需知道彼此的存在,从而克服了建立点对点连接的挑战。它在参数条件满足时触发,并且异步发生,这意味着通信不依赖于特定通道的打开,因为它包含了一个中间人,即pub/sub消息代理。

(10)网格性能分析:分析网格使用情况,报告其有用性、差距和冗余,以确定需要改进的领域。

(11)数据产品数据库管理:负责创建数据使用方式的完整视图,将最终产品发布返回数据目录以供其他用户搜索,并为用户(人与机器)建立问责制。血统管理也是此能力的一个特性。

(12)数据安全分类:将分类标记呈现为数据目录和[x]BOM中的数据元素。这项服务提出了分类升级,因为数据被聚合并应用了算法逻辑,从而赋予了原本平淡无奇数据新的智能潜力。

(13)质量管理服务(QMS):支持标明?血统和出处,该服务确保数据被适当标记并标引,以供用户识别其适用性。

(14)中间Hub服务:网格的联邦性质允许不同实体声明并使用其期望的数据标准。然而,当数据在网格中被利用时,它必须被转换成所有人都能理解的公共模式,然后重新格式化为下一用户所需的标准,再交付给用户。互操作模式提高了速度和透明度。中间Hub服务提供了规定使用者目标结构、格式和语言或表达式符号的能力,然后将数据对象转换为可由请求使用者直接使用。

(15)网格仪器工具:数字机器人和其他监控机制,用于确保网格的最大正常运行时间,识别并隔离漏洞,执行软件和硬件的升级和回滚,以及与合作伙伴的工具包同步。

图4中的服务视图描述了数据网格中服务的组成和交互,定义了服务概念或选项,服务资源流需求捕获,以及服务集成管理,说明了网格中“人”的方面如何与服务交互。

6 用例演示

战场行动者是战士、指挥官、战区后勤人员,它们可能是人或机器。它们将现实世界的战术执行与策略和治理需求进行协调。图5提供了一个使用军事演习作战场景的15个网格组件间的资源流概念场景。其中,两架友军飞机(即“蓝军”)和一艘友军舰艇识别到敌机(即“红军”)。同时,一艘民用帆船航行在公海上(即“蓝水船”)。从左上角开始:

A)飞机和军舰使用(1)唯一标识符(UID)组件来识别彼此是否友好。在右侧,这个验证要求每个实体通过(5)策略访问控制的外围组件授予访问权限。结果:友军平台知道谁是友军,谁是敌人,谁是平民旁观者。

B)在通信中,友军飞机声称他们是“飞行蓝军”,舰艇也通知“蓝水船”的存在。鉴于他们对“蓝色”定义的差异,他们分别使用(2)规范受控词汇表(CCV)网格组件进行翻译(无需人类干预)。这一行动倡议参与(14)中间Hub服务,并将用于接下来的几个行动。(14)是一种协调器,使组件能够用于人-人、人-机器和机器-机器交互。测试结果:友军部队能够用他们的相关词汇表达自己,降低了对彼此母语理解的认知要求。准备接近敌机时,友军查询(3)数据目录以了解对方的可用火力,确保他们为可能发生的事情做好准备。

C)由于(3)是一个静态数据目录,它依赖于(8)数据产品搜索组件,该组件与(1)和(2)交互,以使搜索数据目录变得更容易,让人工工作最少甚至为零。结果:当事方现在知道他们的可用内容,因此在必要时可以请求支援。

D)此步骤包括两个部分:

a)该舰要求友机描述敌机,这些信息以数字方式存储在(4)数据和元数据配置文件或[x]BOM中,并向(13)数据质量管理发送请求,以确保检索到的信息来自最新的[x]BOM,而不是存档版本。其结果是友军各方都获知了敌机的性质,包括其品牌和型号、飞行员人数、美国和盟国的同类型号以及原产国等。

b)由于敌人的性质(飞机)是在对飞机行动者来说更贴近,因此舰艇需要遵从空中支援提供与飞机交战的协议。这一关键步骤利用(6)数字策略管理来确保所产生的策略与当前任务一致,以及(13)数据安全分类,因为某些任务集或敌机交互可能处于超出当前任务的分类级别。其结果是友军在执行任务方面有了明确的方向。

E)步骤A-D构成数据网格(DM)本身的操作,并利用(7)数据交换管理(例如,API(应用程序编程接口)、S3分桶、射频)来交换信息。DM可以运行(10)网格性能分析(用于监控网格的健康状况)与(11)数据产品生命周期管理。数据交换、查询和更新在DM要求范围内安全执行。

F)到目前为止,所有元素都包含在(15)网格仪器工具中,它优化了网格性能,并根据行为分析数据流对数据进行优先级排序。这样的结果是系统至少部分自我修复,因为它能够检测和快速诊断生产中出现的问题。

G)离开数据网格本身,(7)数据交换管理将调查结果传递给决策者(这种情况下是飞行员和船长)以确定是否开火。在发射导弹之后,通过(3)数据目录,网格了解到船舶在返回港口时需要补充其导弹库存,因此它使用(9)数据网格发布/订阅向后勤发送异步消息以准备回填导弹。

7 总结

DRMA从多个角度研究了CDAO数据网格的架构,以深入了解该网格将如何支持美国防部无缝访问联合数据、分析和基础设施以实现数字化转型和人工智能(AI)需求。它提供了一种战略性、原则性和技术性方法,通过提出核心能力包括隐私、分类、访问管理和持续监控,在国防部和合作伙伴之间实现分散的数据管理。

美国防部企业将以多种方式从DMRA中受益。首先,它提供了一种超越其他相关高层战略工作的清晰度来说明数据网格到底是什么样子。其次,它植根于最新产品的最佳实践,这对于优化美国防部特有任务集的网格设计至关重要。第三,DMRA可以在必要时指导SA设计。

(本文根据互联网资料编译整理,仅供参考使用,文中观点不代表本公众号立场)

声明:本文来自电子小氙,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。