2022年5月9日,美国兰德公司发布名为《利用机器学习进行作战评估》(Leveraging Machine Learning for Operation Assessment)的报告。本报告旨在研究如何利用机器学习工具将现有的情报、作战和环境数据整合到战争作战层面的评估。

阐述了利用机器学习系统地从情报、作战和环境数据中提取有关的见解用于军事行动的评估,为指挥官提供决策。并结合“罗盘行动”数据演绎了一种免费且公开的机器学习工具,进行快速收集和处理情报、作战、环境数据中大量非结构化文本,用于客观、统计的相关分析。

利用机器学习进行作战评估

编译:学术plus观察员 冰墩墩与雪容融

本文主要内容及关键词

1.作战评估:是美军行动的关键需求,四大核心挑战(建立联系/有效算法/及时/客观)

2.利用机器学习进行作战评估:监督式机器学习(SML)非结构化数据提取方法;5步评估流程

3.构建用于作战评估的可用数据:情报数据、作战数据和环境数据的作用与收集流程,三类数据集成,“罗盘行动”

4.结论:机器学习可以成为作战评估的强大工具,其中监督式机器学习最为简单可行,可为作战指挥人员提供实时见解;未来研究与实践的五条建议

5.评析:虽然新兴技术可能会使这些工具更加有效和灵活,但在短期甚至中期内都难以达到自行分析或解释数据的能力,因此不太可能替代数据分析师的地位;但确实可以大大提高重复性任务的效率,该术分析工具开发的机器学习工具已经授权美国国防部使用。

内容主要整理自外文网站相关资料

仅供学习参考,欢迎交流指正!

文章观点不代表本机构立场

1.作战评估

1.1 概述

在作战层面进行准确、及时的评估仍是美军军事行动的关键需求。作战评估—提供了有效的信息反馈,促进了努力方向和目标的统一,使指挥官和作战人员能够主动识别机会和风险及时调整作战部署,有效完成作战任务。

收集和处理合适类型的数据对于评估至关重要,也是本报告的重点。有效的评估需要客观的、纵向的、与军事行动希望达到效果有关的数据,合适的结构化评估标准,且还要有足够的时间来支持决策。

在之前的一份报告中研究了一种特种作战部队(SOF)作战评估的标准化方法,但很少使用。虽然这些数据通常是关于敌人、当地居民和友军,且可信的信息来源,但很少用于评估,这在很大程度上是因为它们无法提供易于分析的结构化格式。

1.2 作战评估的目的和挑战

在联合规划(Joint Publication 5-0, Joint Planning)中将作战评估定义为:一种持续的活动,通过确定完成任务的进度、创造效果、实现目标或最终状态来用于决策,目的是制定、调整和完善计划,使战役和作战更有效果。

对军事行动的评估是围绕战役的作战目标进行的,评估过程的重点是确定与每个目标相关的预期效果,然后制定效能测量以跟踪目标的进展情况。效能测量必须是相关的,可衡量的,可塑的和差异的。对军事作战的有效评估必须克服如下核心挑战:

建立联系:在军事作战与效能测量之间建立合理的因果关系。

有效算法:难以推导出使用现有数据的效能测量算法。

及时性:评估所需要的时间与指挥部指导规划和行动作战之间的紧迫时间关系。

客观性:勿将个人、组织的意愿参杂到评估过程中。

1.3 研究目标和方法

研究目标:如何利用机器学习工具将现有的情报报告、作战报告和环境数据(如社交媒体、传统媒体)整合到战争作战层面的评估中?

研究方法:

  • 分析如何使用“监督式机器学习”从非结构化数据中提取与评估相关的数据。

  • 研究使用基于 监督式机器学习(SML)方法从现有情报、作战和环境数据中提取的特定类型评估的相关见解。

  • 通过上帝反抗军“罗盘行动”的数据进行演绎,说明基于 SML 的方法的可行性。

2.评估流程

利用机器学习进行作战评估

利用机器学习来支持评估,尤其侧重于ML在军事行动评估中的特定应用:使用“监督机器学习”(SML)从情报报告,作战报告和环境数据(例如,社交和传统媒体)中可用的非结构化文本构建评估就绪数据库。

2.1 监督式机器学习(SML)

机器学习(ML)常见应用是“知识提取”,在大量的数据中提取与任务相关的信息进行自动匹配,并进一步转换为分析的格式。监督式机器学习(SML)就是机器学习中一种数据提取的方法。

SML 可用于快速分析军事行动的大量非结构化文本数据。首先,通过审查可用报告(例如情报报告)的子集,并确定每个报告是否包含与评估相关的特定输出的指示性信息(如敌人单位的位置或能力)来构建训练数据。然后,ML 算法分析此训练数据,检查评估团队指出相关(或不相关)的报告文本中使用的特定单词和短语,并估计每个剩余报告包含类似评估相关信息的概率。

2.2 监督式机器学习评估流程

通过监督式机器学习评估的5步流程,评估团队可以将原本非结构化数据转换为可立即集成到评估过程中的数据。重点是以非结构化或半结构化文本格式提供的数据,文本报告附带某种类型的元数据(例如,日期-时间组,作者,报告中提到的位置)。

清洗数据:消除不相关的报告,将其数据组织成与SML算法兼容且适合的格式。对于作战,有大量(通常每年数千个或更多报告)的潜在相关情报、作战和环境数据可用。

制定编码标准:审查可用数据的子集,以确定可测量的效能测量(MOEs),并制定标准化的编码标准。编码标准的制定是一个归纳过程,评估团队用这种方法来确定现有数据中是否能够表明有关的特定产出。

构建训练数据:评估团队按照标准化的编码标准,对首批报告进行编码,并验证可复制性。根据粗略的经验法则,SML 算法必须有至少 70% 的交互可靠性才能运行良好。如果未达到此阈值,则团队可以协商解决任何分歧,并根据需要完善或改进编码标准。

校准机器学习算法:使用训练数据实现算法,检查相关报告输出的准确性,并更新标准和训练数据。校准是一个迭代过程,评估团队通过该过程“微调”ML 算法,以在训练数据分析中产生最高的精度,并应定期重复此校准过程,以确保在获得其他数据时算法仍然表现良好。

将机器学习算法输出为评估格式:将数据重新组织为Excel或类似的格式,以便后续分析。除了允许评估团队使用标准分析方法分析这些数据外,这种结构化数据库格式应用于现有的态势感知工具中。

图:监督式机器学习评估5步流程

3.构建可用数据

构建用于作战评估的可用数据

在军事行动期间收集的数据多种多样,这些数据很少被纳入作战总部进行评估。因为它们通常不能提供标准的评估格式。不能以结构化数据格式提供,而是以非结构化文本或其他非结构化数据格式(例如,图像,视频)的形式提供。通过使用监督式机器学习评估5步流程方法来构建这些数据,将它们合并到评估过程中。

3.1 情报数据

通常是以敌人为中心的可用数据的最佳来源,提供有关敌人位置,部队结构,活动和不断变化的敌人意图的见解。此外,根据军事行动和指挥官的情报要求,该报告还可以提供有关当地人口、伙伴部队和其他相关战场条件等。

三类情报报告对评估最有用:

人类情报(HUMINT),个人提供关于战场空间的一组观察。

信号情报(SIGINT),包括通过电子手段截获的通信和其他传输。

地理空间情报(GEOINT),它包括与地理和地理参考信息。

情报界产生的情报可以分为3类:

原始数据,包括人类情报、信号情报、地理空间情报。

情报信息报告(IIR),以标准化的文本格式(尽管基本上是非结构化的)供数据分析师分析后的初步意见。

评估的最终情报,结合并交叉验证来自各种不同来源的报告,供指挥官使用。

情报数据的收集和准备流程:

  • 获取情报批量提取工具

  • 对全源情报进行试验查询

  • 验证结果,改进并执行完整查询

  • 下载数据集

3.2 作战数据

已部署的军事单位编写了大量系统报告,说明各部队正在做什么,他们是如何做的,以及他们可能遇到的挑战和成功。在大多数情况下,这种行动报告还提供了关于伙伴部队的活动和熟练程度的最细粒度的信息。从 SITEP 中提取的信息可以通过两种主要方式用于评估:

  • 详细的行动记录,描述不同活动发生的地点和时间及单位试图达到的效果。

  • 伙伴能力信息,描述伙伴部队活动、行为、士气和感知效率的详细历史记录。

作战数据的收集和准备流程:

  • 获得各军事单位的SITREPS数据

  • 检查每日SITREPS数据的相关性

  • 按单位和日期下载数据

3.3 环境数据

除了参与军事行动的单位收集的数据外,其他实体编制和收集的数据可以提供有价值的与评估有关的见解。包括社交媒体(如Twitter和YouTube),传统媒体(如报纸)以及商业和政府卫星收集的图像,统称为“环境数据”。

环境数据的收集和准备流程:

  • 获得访问LexisNexis和社交媒体源

  • 在新闻/社交媒体上进行试验查询

  • 下载数据集

图:数据准备工作流

3.4 数据集成与演绎

通过 SML 方法生成的结构化数据,将以上三种数据集成到作战评估中,并支持SOF的标准化评估流程。结构化的数据使分析人员能够将数据与业务活动联系起来,并将调查结果与其他类型的结构化数据进行三角测量。

使用打击上帝反抗军(LRA)“罗盘行动”的数据进行演绎,通过监督式机器学习工具来产生结构化数据集,使用标准评估方法进行分析和可视化展现。证明了利用监督式机器学习进行作战评估的可行性。

4.研究成果

4.1 研究发现:机器学习可以成为作战评估的强大工具

问题与解决方案:行动层面已收集的数据很少被纳入评估,因为它们通常(1)被认为不够客观、不能以易于分析的结构化格式提供,且数量极大,难以全面获得或有效组织起来。然而,借助机器学习(ML)工具可以快速摄取和解释大量非结构化文本,允许对这些数据进行快速、系统和客观的分析,从而产生客观和统计相关的营销活动见解。其中,监督式机器学习 (SML)是使用 ML 将这些数据合并到评估过程中的最简单方法。在 SML 方法中,评估团队首先手动分析非结构化文本的子集,然后应用 ML 算法来模拟评估团队对剩余数据的分析方法。

方案特点与优势:ML派生的数据可为指挥官提供有关战役的近乎实时的见解,并通过情报,作战和环境多方面的数据为战役决策提供多重视角。ML工具在评估特定数据有限或没有评估特定数据的作战活动中特别有用,这在资源有限的作战活动或被拒绝的地区很常见。基于 ML 的方法对于大多数评估团队来说应该是可行的,并且可以使用免费提供的 ML 工具实施,这些工具已预先授权用于美国国防部的分类系统。

4.2 五条建议

  • 在受控练习中验证本报告中描述的受监督的 ML 方法。

  • 探索如何使用无监督 ML 为运营评估提供信息。

  • 对业务报告实行适度的标准化。

  • 改进历史情报和运营报告的归档、发现和提取。

  • 扩大军事专业教育中所需的针对具体评估的讨论。

5.评析

该报告介绍了一种如何利用机器学习 (ML) 工具将这些现有数据整合到作战评估的方法。并通过“罗盘行动”进行演绎,基于 ML 的文本分类器如何使用评估团队常用的标准统计工具快速排序和准备这些数据以供后续分析。

机器学习和评估的未来方向有三:一是基于文本分类的研究:加强自然语言处理(NLP)的分析能力,理解和分析人类语言特征和结构;二是基于观点和情感分析的研究,依靠语言的参考库来分析内容的修辞观点、情感和其他特征;三是基于异常检测的研究,即结合监督式和非监督式机器技术提供异常检测的提示和警告,并整合到数据评估的分析过程中。

然而,机器学习工具不会取代人类数据分析师,而是通过数据分析师允许自动执行重复性任务来提高效率。虽然新兴技术可能会使这些工具更加有效和灵活,但ML在短期和中期发展时间内都不太可能替代数据分析师的地位,无论是在作战评估还是其他应用上,数据分析师仍至关重要。事实上,机器学习、人工智能领域,甚至更超前的研究领域,远没有设计出评估或编码过程,进行自行分析或解释数据的能力。

参考链接:

https://www.rand.org/pubs/research_reports/RR4196.html#:~:text=Machine%20learning%20can%20be%20a%20powerful%20tool%20for,enemy%20and%20partner%20forces%20and%20the%20local%20population.

声明:本文来自学术plus,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。