当今,“大数据”是媒体和政府大量讨论的话题。大数据与人工智能结合,被形容成是一个减少分析中人类作用的“快捷按钮”。有些人将此看作是对民主秩序的潜在威胁,其他人则将此看作是大肆的炒作,并没有展示出什么惊天动地的效果。大数据是什么?为什么大数据对未来的情报界(IC)和联合军事行动必不可少?

在炒作中制胜——大数据是什么?

顾名思义,大数据归根到底是有关搜集、储存和处理大量数据和信息。大数据一词最早出现在21世纪初期,当时工业分析师道格·莱尼对大数据的定义,因3个被冠以“V”的主要因素而有别于此前的模型。

信息时代使人们能以空前的规模,获取和储存能够被保存并定期提取和分析的数据和信息。以前大多数供分析的数据库能在单一的、行数从数十到数十万不等的数据库中获取(例如微软的Excel数据库)。大数据能使人们搜集百万计到百亿计的数据点。

以前所未有的速度获取的大量数据和信息必须要立即处理。例如,推特2013年每天收到5亿个更新(推文),每个推文组成1个单一的信息数据点。

信息时代美国空军情报的当务之急—大数据

数据和信息以多种格式来自多种来源。过去,需要信息的分析人员或机构能影响搜集什么信息,以及信息如何储存,但现今量和速的结合,需要建立以数据获取形式对数据进行管理和整合的系统,范围从一个图像到一个推特或脸书输入,到一个对话或演讲的文字稿。

随着人们对大数据意识的增强,今天很多学者将其他方面,诸如易变性和复杂性,添加到这3个V中。在美国空军,以及其他机构,加入了第4个V。

经由大数据可以提取的数据的量、速和多样性,包括有关问题集的相当多的谣传和无关数据。这产生了数据分析中的可能异常,为在选择什么数据重要,以及如何分析数据上打开了分析的偏见大门。大数据策略必须包括保持数据“清洁”的过程,以及对大数据工作危害的分析意识。

关于大数据的潜力与炒作的辩论,主要源于对大数据和大数据分析的误解。事实上,大数据并不消除数据搜集和数据分析的传统挑战。但它的确从根本上重塑问题出现在哪里,以及如何出现的看法。复杂的算法执行许多这些功能,便于大数据的解析,但是那些算法,即使受到机器学习的推动,也必须由人类编程,为回答预选设定的问题定制。这意味着,大数据仍然会受到搜集、展示和分析的偏见,对此,分析人员必须要敏锐地意识到。大数据使人们能获得巨量增加的数据点,便于对更多数据点进行更快分析,但是糟糕的大数据分析不能改变分析的质量。

大数据如何重塑情报

信息革命对美国空军情报核心能力的影响(搜集、分析、目标和整合),一开始集中在搜集,其次是侧重在威胁和目标分析上。由于全球一体化的情监侦使近实时的利用成为可能,可以利用的采集器和传感器大幅增加。同时,作战要求改变了对近实时威胁和目标的分析,以便进入到敌手的包以德(OODA)循环圈。在资源受限,近期几乎没有迹象显著增加人力的时代,改变情报生产,满足今天的作战要求,可能不会来自对搜集或分析的进一步革命化。

恐怖组织通过互联网招募人员对西方安全构成了重大挑战

今天,即使在情报界内部,数据和信息搜集的数量、速度和种类已经发展到如此程度,分析人员已无法再充分地筛选搜集到的所有东西,如果没有计算机程序和自动处理的帮助,甚至不能充分地储存,更不用说分析所有的数据和信息。

此外,网络时代的到来,改变了从公开来源搜集的性质,使开源分析从信息来源之一发展到协助分析,又发展到其本身成为一门独立的情报学科—公开来源情报(OSINT)—拥有围绕着搜集、分析和生产的全套行业知识技能、管理和法律问题。未来在于数据管理和情报的策划,促进以问题为中心—而不是以需要为中心的—美国空军情报。情报生产的工业时代模型已无法跟上信息环境的步伐。

正如美国国家地理空间情报局长罗伯特·卡尔迪洛2018年早些时候所指出的,“如果我们试图以人工利用我们预计在未来20年内获得的商业卫星图像,将需要800万图像分析员。即使现在,每天仅1个战区的1个传感器,搜集的数据相当于3个美国国家足球联盟赛季全部比赛场次的数据。而且是高清晰度!”

分析人员有着比以往任何时候更多的途径获取信息、更多的工具供他们搜集信息使用,以填补知识的空白。授权那些分析人员来影响指挥官对已知的、已评估的和未知的情况有所了解,并且影响回答其余情报问题的合适工具集,才是在正确的时间把正确的信息向正确的决策者送达的途径。灵活性和多样性必须要以应用于进攻性空中作战的相同方式,应用于计划和实施基于效果的情监侦活动。

开源情报

或许没有任何一个例子能比作为一个真正的情报学科的OSINT的创立更能说明关于大数据4个V的搜集突变。在谈到OSINT是一种新学科时,很多冷战时代的分析人士会警告,“不,我们一直有OSINT,中央情报局(CIA)的开源中心就是例证。”的确,数10年来通常引用的一个经验法则—追溯到当年的CIA局长艾伦·杜勒斯—是超过80%的情报分析最终源于公开来源。这一切全都是真的,但在学科上被定性为开源信息会更好。

OSINT作为一种情报学科跟互联网和社交媒体的扩散直接相连,而且随着这种扩散,需要开发新的信息搜索和发现的行业技能,确保保护公民权利和保障信息安全的相关法律和法令的监督,以及程序的管理能被IC所遵守。没有大数据的解析方案,分析人员就不可能筛选可以利用的数10亿的数据点(量、多样性和速),辨识有关的和无关的数据段(真实性),保障公民的权利,遵守其他适用的法律和规定,发现相关的情报洞察,满足客户的需要。

各国士兵使用智能手机会暴露部队运行信息,而这些信息往往蕴含在网络开源信息中

信息革命产生了新的共享网上文化,很多人将其特征形容为过度共享。对IC的好处是,通过推特、脸书、色拉布、博客和多种尚未发明的社交媒体网站,情报机构能进入全球数千万被动的搜集器。在1990年代,分析人员面对的一种前景是,在他们有时间完成情报的评估周期之前,战场损失评估可能已在有线电视线新闻网CNN和推特上做了。学术研究和情报分析现在依靠心态分析,事实上,依靠推特上一个错综复杂和可定制的“趋势”版本,来判断公众的情绪,以此为依据预测未来可能发生的活动(国内动乱等)。

作战的时间要求

在大多数大数据的商用讨论中,速度侧重在信息如何迅速获取上。对于情报行动来说,速度也同样适用于操作员、指挥官和其他决策者将要求如何迅速获取情报输出来推进行动。打击“伊斯兰国”的行动,对美国来说主要是一场以空中行动为中心的战役,强调慎重的和动态的目标定位,孤立和削减一个固定基础设施有限的原始状态的国家,其人员随时准备混迹于人群中来防御打击。

这种结合,以及最大程度地降低附带损毁风险的必要性,不可避免地增加了对情监侦的需求。这包括发现并描述目标,维持对潜在目标地点的监视,了解民众的生活习性。盟军空中组成部队指挥官小查尔斯Q·布朗中将在2016年5月明确地指出了这一点。他说,“因为这帮助我要做的是开发目标,以便我们在开发那些目标的同时实施打击。我的情监侦越多,我就能最大限度降低平民伤亡的风险,继续我们的精准空中行动。”

这种情况有更多的量和时间的特征,因为具有信息价值的时间,在一个动态的打击中转瞬即逝,尤其是在跟一个更传统的目标比较时,如机场、指挥碉堡,或一个通讯网络的一个部分。动态目标信息的近实时性质,以及其在交战/作战结束阶段的关键作用,使很多观察人员认定,今天要实时瞄准目标更容易些,但实际上,这代表了协助打击的情报冰山的一角。盟军需要一个全球同步的分析网络,迅速融合图像,电子拦截,以及消息人员提供的线索,来提示潜在的打击目标。

全球一体化的情监侦,通过及时地获取更多搜集,为这些网络提供便利,但却附带很大程度上的真实性问题。与此同时,这种系统还同时受到担心平民伤亡的人权组织越来越多的批评,以及力主更多传统空中行动倡导者越来越多的批评,认为被打击的目标总数,即使按照最近行动的标准衡量也不够。必须要面对分布作战,分析质量控制,以及数据集的管理之类的复杂管理问题,以便能让情监侦界和实时操作的操作员全面视觉了解目标发展的动态。

恐怖组织通过互联网招募人员对西方安全构成了重大挑战

威胁环境

伊拉克和叙利亚的“伊斯兰国”经常通过所谓的数字哈里发来吸引“孤狼”恐怖主义,这凸显出互联网对西方安全构成的挑战。在此之前,像4chan/“匿名者”那样的网络团体,利用网上链接组建信息共享的无政府主义社区,最终助长了对一些问题的集体行动。

由于美国军方情报机构历来把常规军事优势看作是其使命的核心,在信息时代,对国家安全来说,作为作战区的武器化的宣传正在迅速成为焦点。了解信息时代的威胁环境,只有获取并有效地利用大数据解决方案,才是可能的。虽然对抗这种挑战的责任可能最终会落在非国防部机构上,如国务院,美国空军的使命要求网络领域的感知和防御。有鉴于此,美国空军情报分析人员必须置身于分析和发现网络领域威胁的前沿。

过去10年的反恐和反叛乱行动,使美国空军情报分析人员精通监控和评估冲突区的恐怖分子网络,尤其是在伊拉克,伊拉克的基地组织和阿富汗与塔利班有关联组织的情况一样。不过,网络团体代表不寻常的挑战。网络团体缺少一个中心的指挥结构,他们基本上通过网上的社区规范和价值观行动。他们的会员身份公开,没有正式的招募或保留机制,而且他们的战略策划微乎其微。

大多数人趋向于抵制任何人以他们组织的领袖或代言人出现;有影响的人物可能会在有限的阶段出现,但他们公开和多样性会员身份的性质,阻止任何人在较长一段时间抛头露面,而没有分裂该组织。小一点的社区,因为具有相同意识形态的成员有限,可能会制定更强大的内部等级,但这限制较大团体的全球触角和影响。

正如敌手能使用网络领域施加影响,实施行动一样,他们能使用网络攻击工具来挫败情报并且放大他们的信息。一个最显著的工具就是使用机器人;设计用于通过社交媒体和其他网上场所自动传播信息的软件机器人。这些信息会扭曲情感分析的数据,通过从众效应来影响公众舆论,使舆论看上去很受欢迎,通过网络团体自动传播虚假信息,并加强招募。对俄罗斯可能涉入2016年选举活动的调查,重点并没有放在传统意义的黑客威胁,而是放在由机器人实施,针对特定团体发布信息的社交工程上。展望未来,在复杂多领域环境中工作的分析人员,必须了解网络领域构成的新兴威胁的性质。保持基本的事态感知,更不用说获取操作了解,只有通过更好地了解大数据解析并且承认其作为一种工具的力量及其弱点,才能获得。

结 语

套用一句老话,你可能对大数据不感兴趣,但大数据对你感兴趣。大数据通过信息共享和进入云端,影响现代信息环境。大数据已在根本上重塑分析人员如何获取和解释数据的方式。对手利用复杂的网络环境招募人员,影响民众,并以一种只有通过大数据解决方案才能发现的方式攻击美国的利益。

我们搜集和储存原始数据的能力持续超过我们处理所搜集数据的能力,这意味着,我们可能早已掌握解开情报客户今天的谜团,以及明天会产生的谜团的答案,这些答案藏身在我们大量信息数据库中的某处。没有大数据解决方案来管理数据和信息,使我们持续搜集并迅速将其提供给情监侦的策划者,以推进更明智,更及时的搜集,那么,美国空军情报界就将面临信息超负荷,从而导致决策瘫痪。在正确的时间将正确的信息传递给正确的客户,意味着重新思考情监侦计划,接纳大数据解决方案,迎接我们面临的情监侦挑战。

本文刊载于《军事文摘》杂志。

声明:本文来自军事文摘,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。