美军数据科学与情报分析

常逸昆/编译

【知远导读】本文编译自美国陆军《军事情报专业公告》2019年第3期同名文章，作者为卡内基梅隆大学社会计算专业在读博士、美陆军上尉伊恩·克鲁克申克（Iain Cruickshank）。文章在简要介绍数据科学基本内涵的基础上，探讨了数据科学为什么能够用于情报分析，如何用于情报分析，以及二者之间的关系，并对数据科学在情报分析领域的应用前景做出了乐观展望。该文有助于我们了解美军情报分析工作与数据科学融合发展的现状，并为我们带来部分启示和借鉴。

近年来，有关数据科学（Data Science）和大数据的报道铺天盖地，其中部分是合理的，部分是不切实际的。有不少人将数据科学以及与之相关的机器学习和人工智能等学科视为解决现代决策和分析弊病的“灵丹妙药”，尤其是那些困扰着情报界（IC）的弊病。然而，情报界的部分成员却并不相信军事情报分析可以从数据科学和机器学习中获益。因此，本文试图阐明数据科学在情报分析中所发挥的作用，列举其成功运用的条件，并为最大限度利用现代数据科学进行更好的情报分析营造有利环境。

数据科学是一个“跨学科领域，它运用科学的方法、流程、算法和系统，从各种形式的结构化和非结构化数据中提取知识与观点”。简而言之，数据科学通常是指运用计算机从数据（例如原始文本、图像、信号等）中提炼知识（即对人类有用的信息）的能力。同时，数据科学也会经常使用机器学习和其他人工智能技术。因此，它是分析大数据、在线社交网络和其他数据源的首选学科，因为这些数据源过于庞大、结构多样且不断变化，仅靠个人难以准确理解和把握。

尽管数据科学广泛见诸于报道，但其并不能完全取代情报分析。情报分析所依靠的不仅仅是数据科学这一门学科，它还要基于分析人员的经验和直觉。数据科学不是要取代分析人员，相反，数据科学能够改变分析人员的工作方式，提高分析人员的工作效率，使分析人员能够更加专注于自身的直觉判断、发挥经验优势。从而使他们能够把大部分时间和精力从获取信息（例如阅读报告或观看全动态视频）转移到思考对手、环境和战场趋势上来。

为什么数据科学能够用于情报分析

正如最近大量文章所描述的那样，使用更多的开源和社交网络信息来进行情报分析成为了一种趋势。这些数据源可能非常有价值，但也混杂了不少噪音和错误。尽管如此，越来越多的情报分析人员还是倾向于选用这类数据，因为这类数据能够让他们洞察到某些信息，而这些信息是其他数据源无法提供的。最近，来自军事情报界的多篇文章重点关注了如下几个问题：

1. 缺乏可互操作和可集成的数据源，缺乏理解信息所需的通用作战图（COP）和实体（ontology）。

2. 缺乏能够使信息直观易懂并为分析人员提供易于理解的范式的方法。此外，缺乏能够适应不同作战领域（例如网络空间作战、反叛乱作战等）的方法。

3. 权威的和自相矛盾的报告，以及对分析人员可用信息的过滤。

4. 分析人员为寻找可用信息花费大量时间调阅视频或筛选报告。

上述问题主要聚焦如何使情报分析人员获取“正确”的信息，以及如何以一种可分析的方式来呈现这些“正确”信息。尽管目前分析人员用于情报分析的信息来源多种多样，但如何处理这些海量信息，从而使分析人员能够加以利用的问题仍旧普遍存在。在这种情况下，数据科学作为一门新兴学科，自然迎来了发展良机。

谷歌、脸书和微软等公司最近在业界取得的长足进步极大提升了人们对数据科学和人工智能的兴趣，美国国防部也注意到了这一点。2018年的美国《国防战略》（NDS）及其相关衍生文件均对人工智能和现代数字技术给予了重点关注。物联网（IoT）和无人机技术的不断进步使情报搜集技术实现了突破。军事情报界的成员也在努力整合数据科学家的工具，尤其是机器学习能力。然而，这些文件对如何将数据科学和机器学习用于情报分析缺乏具体的指导。

虽然数据科学和人工智能在情报分析领域拥有广阔的应用前景，但在实际推广过程中仍需注意一个重要问题，即单纯采购现成的机器学习和人工智能产品远远不够。具体原因有三：

首先，数据科学仍然是一门新兴学科。作为一门新兴学科，数据科学的许多工具和方法并不适用于除技术行业和学术界之外的广大群体。如果情报分析人员无法理解这些工具，他们就不会正确使用。

其次，不存在适用于所有情况的唯一算法或模型。数据环境越复杂、变化越快，任何一种给定的算法或工具就越不适用。

最后，现成的工具不一定是有效解决方案。随着敌方机器学习能力的不断提高，任何现成的工具都需要根据敌方开发的算法来进行调整和改变。最近，关于欺骗图像检测机器学习算法的研究，向我们模拟演示了敌方机器学习可能具备的能力。但如果该工具不是开源的，而是某些专利产品，那么它将很难适应战场需要。因此，尽管购买现成的人工智能和机器学习工具可能是个不错的选择，但这些工具并不能完全满足情报分析的特殊需求。

数据科学和情报分析之间的关系

数据科学可以通过将庞大、多样、易出错的数据转化为人类可用的信息（如趋势、离散情况和关键数据点）来支援情报分析。为更好地说明这一点，本文作者用黄金开采的流程进行了类比。毫无疑问，采金业的全部意义就在于发现地下埋藏的黄金并将其成功采出。现在，假设每名矿工只能挖掘一定量的土方；如果挖错了地方，那么矿工将无法发现金矿。另一方面，土地测量师可以轻而易举地探明矿脉所在，但土地测量师却不擅长采矿。因此，这就催生了一种双赢的局面。即先由土地测量师探明金矿可能埋藏的具体位置，而后再由矿工采出黄金。土地测量师的专业技能是矿工开采量的有力保证，因为矿工只需在已探明的地域开采即可，无需自己费力寻找。回到数据科学和情报分析二者关系上来，如果用情报分析人员替换矿工，用数据科学家替换土地测量师，用可行性情报（actionable intelligence）来驱动指挥官对金矿位置做出的决策，那么你就会明白数据科学是如何显著地增强了情报分析能力。情报分析人员依托数据科学家发现的趋势和模式，来理解信息的具体含义并据此形成情报评估。

在无需深入涉及特定算法和方法的情况下，数据科学一般可借助下列常见方法来支援情报分析：

1. 允许在全动态视频（FMV）中进行实体检测（即美国防部“Maven计划”）。这样一来情报分析人员就不必长时间紧盯监控屏幕，只需在感兴趣的画面出现时根据提示关注视频即可。

2. 将报告、图像和其他形式的信息描述成更直观、可解释的格式，以便快速理解情报环境。

3. 基于某些感兴趣事件的关键指标，提供动态、持续的预测分析。

4. 在信息空间和地理空间描述可用信息的不确定性。

5. 识别信息和目标行为中的异常现象。

6. 提供内容推荐，以帮助识别更多有助于情报分析人员进行情报分析的相关信息。

尽管上表列出了许多方法，但需要注意的是，数据科学在任何情况下都无法取代情报分析。因为没有任何一种方法能够解释敌人的意图，也没有任何一种方法能够否定分析人员的判断。相反，数据科学只是一种工具，它可以帮助情报分析人员集中精力思考某些关键信息并做出正确判断，避免将大量时间浪费在搜集信息或检索异常上。此外，剔除无关信息不仅能让情报分析人员把更多精力投入实际分析，还有助于获得更好的情报。

有关数据科学和情报分析二者关系的最后一点。数据科学强调“特征选择”（feature selection），这是一个从信息中挑选变量的过程。由于数据科学家从信息中所挑选的变量通常与需要分析的现象有关，也就决定了专业知识在这个过程中非常重要，所以情报分析人员必须要在该环节发挥自身作用。当选取有关敌人、平民或地形的属性时，情报分析人员需要参与其中。因此，当涉及到“特征选择”的问题时，所选“特征”应当是情报分析人员认为重要，且数据科学家能够实际操作的。

用数据科学为情报分析赋能

数据科学家认为，数据科学得以发展成为一门学科离不开三个要素，即一个好的问题、计算资源和可用数据。情报分析提出了数据科学所需的“好问题”，但情报系统通常不具备相应的计算资源和数据管理能力。

一个好的问题。在情报分析领域，有许多好的问题亟待数据科学家解决。更为重要的是，随着数据科学被纳入情报分析，可能会出现更多的好问题。

计算资源。数据科学所涉及的一切方法和算法都需要计算能力。在通常情况下，大部分业内人士和学界的数据科学家主要依靠云计算来获取该项能力。云计算允许数据科学家在世界任何地方创建一个虚拟计算机，该计算机具备进行数据科学分析所需的精确参数，其计算能力远超实际承载能力。同时，云计算还能够帮助计算资源形成规模经济效益（economies of scale），这对于任何一家大型机构而言都是非常重要的。情报界对云计算资源的需求是众所周知的。然而，由于各种原因，情报界始终未能建立类似的云基础设施。因此目前有必要对这项工作给予关注并施加压力，从而实现数据科学为情报分析赋能的目的。

还有一些关于如何在复杂电磁环境下运用数据科学的考虑。例如，VMware或Docker之类的虚拟化技术为数据科学家提供了廉价而高效的方法，使科学家们能够继续在本地计算机上使用他们的工具，而无需额外的设备或与业界建立广泛的联系。他们只需在拥有机密网络访问权限的物理计算机上安装虚拟程序即可。最后，值得注意的一点是，数据科学的许多工具都是开源的，并且还在不断优化升级，要熟练使用这些工具至少需要具备R语言或Python语言编程能力。所以，像陆军分布式通用地面系统（Distributed Common Ground System-Army）这样封闭、静态的情报系统很难与数据科学工具实现对接，因为此类系统不允许数据科学家进行编程并将个人工具引入数据所在的计算环境。

可用数据。数据管理是妨碍数据科学赋能情报分析的另一个因素。正如情报界所指出的那样，形式多样、结构复杂的信息数据库使获取任何信息（即便是正确信息）都变得极其困难。从本质上说，要克服该问题，最好是手动检索情报数据库或手动下载对数据科学有用的信息。然而，这种体力劳动将导致大量分析时间流失，并可能造成信息丢失。因此，对基于数据科学的情报分析而言，系统必须强制从应用程序编程接口和标准数据本体等方面对数据进行程序化访问，这一点至关重要。

结论

情报分析越来越依赖庞大、多样的信息来源。其结果是，信息的绝对数量远远超出了情报分析人员的筛选能力。不一致的、动态的和错误的信息持续困扰着情报分析工作。所有这些问题很自然地指向了一个解决方案——将数据科学用于情报分析。此举不是为了取代情报分析人员，而是为了获取更有时效、更高质量的情报。

诚然，部分关键条件仍在制约着这种努力，比如云计算和适当的数据管理，为了发挥数据科学的“赋能器”作用，情报系统必须解决这些问题。一旦解决，数据科学将为那些能够把其纳入情报分析流程的部队提供独特的作战优势。如果当前情报部门获取海量数字信息的趋势一直延续下去（这一点几乎可以肯定），那么期待情报分析人员掌握部分数据科学技能也不无道理。想做到这一点，我们需要在数据科学家和情报分析人员之间建立一种牢固而互利的工作关系。

声明：本文来自知远战略与防务研究所，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

美军数据科学与情报分析

强化印太态势感知：美国网络司令部持续推进“数据和传感器”项目建设

提升战备状态：美国网络司令部持续推进“持续网络训练环境”建设

应对量子计算“生存威胁”：美国国防部发布后量子密码战略