2020年3月16日,兰德公司官网上发布了一则题为《通过社交媒体检测恶意或颠覆性信息-可扩展的预警分析》的报告。该报告分析了国家对于检测恶意或颠覆性信息工作可扩展分析手段的需求,列出了用于检测这些工作的方法和工作流程,并通过2018年世界杯期间解决此类工作的案例研究进行了仿真测试,最终对相关领域的工作提出了建议。

文章仅供交流参考,观点不代表本机构立场。

部分图片来自网络。

预警分析!

通过社交媒体检测恶意或颠覆性信息

译评:学术plus评论员 临风

网址:https://www.rand.org/pubs/research_reports/RR4192.html

在恶意或颠覆性的信息活动对大量受众的态度和行为产生实质性影响之前,美国在发现预警这些活动方面还存在不小的能力差距。目前正在重点研究如何检测此类活动的某些部分内容(例如,泄密账户和“虚假新闻”报道)。本报告提出了一种检测整个活动的新方法,即采用现有的社交媒体分析方法,将网络分析和文本分析相结合,对社交媒体上互动的社区进行映射、可视化和理解。兰德公司建议美国考虑采用这种或类似的社交媒体分析方法,通过检测社交媒体上的行为,可以切实为美国规划管理者提供早期预警。

一、检测恶意信息的必要性

美国及其盟友迫切需要更好地预警那些恶意信息(意在伤害)或颠覆性信息(意在破坏)的活动。目前的研究方法是,在这些活动结束后对其进行检测和分析,这样虽然可以提供有价值的事后分析研判,但是这种迟到的分析结果使决策者无法快速、主动的解决这些问题。

迄今为止,这方面最好的例子是俄罗斯在2016年美国总统选举期间的活动。事后看来,当时存在了“一场全面而持续的社会影响行动,其中包括各种针对美国公民的同步虚假信息策略,旨在施加政治影响并加剧美国文化中的社会分裂。”然而,这种宣传活动没有被及早发现,因而无法采取有效的对策。

为了满足检测恶意信息的需求,美国等西方国家正在不断摸索检测的重要方法和手段。机器学习方法,如基于主题建模的方法,正被用来检测叙事主题和错误信息。其他研究集中在传播方法和策略上。

一个重要的原则就是,要将恶意信息检测作为整体而非部分开展研究工作。目前所做的研究都是在单个项目上进行的,由此来牵出更大更为整体的部分,而此次研究成果可以将检测的重点聚焦到集合的层次来完成相关工作。也就是说,我们不关注个人账户,而是关注频繁互动的大群账户(社交媒体社区),我们不关注个人推文,而是关注按社区分组的大量推文。通过使用网络和文本分析,我们的分析师能够在非人类尺度上可视化和理解社交媒体讨论(以及影响这些争论的恶意行为)。

二、检测恶意信息的方法工具

为了证明研究方法可行,兰德公司的研究人员对这种在社交媒体上检测恶意或颠覆性活动的新方法进行了测试,测试过程中采用了一种现有的社交媒体分析方法,称为社区词汇检测分析(CLA)。这种方法将网络分析和文本分析结合起来,通过可视化的方式来呈现和理解社交社区和社交媒体之间的关系。CLA大规模工作,分析人员可以在数据集中寻找与信息工作相关的模式,这些模式对于人类的定性分析来说太大了。

CLA是一种数据简化技术,将一个巨大的数据集划分成更小/更密集的数据集,在这些数据集中可能检测到微弱的信号。例如,想象一下,试图发现准备在大型公共活动中传播虚假信息的人——同时监控成千上万的声音是不可能的。但是,如果你能找出最有影响力的人的主要谈话,并一次分析一段谈话,那么在茫茫人海中可能丢失的微弱信号就可能被探测到。

工作原理是:

  • 使用网络分析将大型社交媒体数据集分解成许多较小的“社区”对话;

  • 使用文本分析来总结每个社区数十万或数百万条推文;

  • 利用人类专业知识在最大和最中心的社区寻找可能的信息主题或策略。

词汇检测分析方法图解

分析过程中,我们使用了RAND-Lex,这是一套文本分析和机器学习工具,旨在帮助人类分析师理解大量的语言数据。RAND-Lex是一种人在回路中的方法,它同时具备了计算机的优势(工作迅速、可靠,并能适应大量数据)和人类的优势(创造意义并为解释提供背景)。RAND-Lex可以帮助研究人员查看非常大的文本数据集合(即数千万字),并进行描述性和探索性统计测试,以分析和确定这些数据集的意义。除了文本分析,RAND-Lex还包括社交网络分析功能。

在报告中,兰德公司不仅展示了分析中使用的数据和方法,还展示了使用的工作流程和技术细节,目的是让其他人能够在新的环境和新的数据集上复制他们的工作。兰德公司认为,发现恶意信息是民主政府和社交媒体公司面临的一项重大挑战,报告旨在帮助管理者提高这方面的能力。

三、典型案例分析

在报告中,兰德公司利用2018年国际足联世界杯期间发现俄罗斯恶意或颠覆性信息的案例进行了分析研究。2018年国际足联世界杯是一个每四年举办一次的国际足球锦标赛。为此,研究人员分析了约6900万条英语、法语和俄语的推文,内容涉及2018年世界杯的前一个月和后一个月。这一分析使我们推断出俄罗斯两个不同的信息运动,一个是基于俄语,一个是基于法语。

基于俄语的世界杯舆论 基于法语的世界杯舆论

通过对支持俄罗斯政策目标的信息、国家支持的媒体活动以及虚假账户的分析,发现法语数据中存在恶意信息。

在俄语数据中发现了一个三角形结构,其中包括一群足球迷和两个激进团体,他们以世界杯为起点,就俄罗斯吞并克里米亚的性质和有效性展开辩论。我们将这两个激进组织描述为支持吞并乌克兰的亲俄激进分子和谴责入侵的乌克兰支持者。我们使用法语数据进行了类似的分析,发现了一个四点风筝形结构,由两个真正的足球迷团体和两个公开的政治团体组成,有恶意信息活动的证据。这两个团体称为“Paris Burning”和“Russian and Arabic Voices”。

虽然兰德公司没有确凿的证据可以将这些舆论信息直接与XXX联系起来,但其依旧认为通过分析可以发现,蓄意恶意信息活动很可能就是由XXX进行的。报告认为XXX正积极致力于通过这种手段破坏和损害西方民主,特别是该发现的结论与其在这一领域的利益完全一致。(该结论为兰德公司报告通过研究推论出,与平台无关,仅做学术交流使用!)

通过将可扩展的网络和文本分析软件相结合,兰德公司可以在收到数据后的几天内绘制出社交媒体上的社区,即参与舆论宣传的社交团体映射地图,并使其形象化,变得具有分析意义。这种方法起到一种数据归约的作用,将数据分割成有机的、具有社会文化意义的子集,以便在数据集中快速有效地搜索表示恶意信息的模式,这些模式对于人类的定性分析来说大的无法处理。特别是,兰德公司认为其解决了美国信息操作能力的严重缺口:使其可以在整体水平上检测恶意信息活动。

四、建议

鉴于发现恶意和颠覆性信息工作的紧迫性,以及这一概念验证研究的前景,兰德公司建议相关部门应考虑深入研究这一方法在实施过程中必要的技术和专业知识。恶意或颠覆性的运动是一种对于时间十分敏感的竞争形式。如果发现得太晚,可能会呈现一种既成事实。建议应对以下研究方法和技术进行重点关注。

(一)整体性分析方法

当前的研究侧重于检测单个对象,而不是总体水平上的整体检测。兰德公司的报告中提到并解释了如何将恶意行为作为整体来检测,这可能比试图在个人网络账户或信息层面识别行为更敏感、更有效。兰德公司建议任何美国政府主导的开发信息工作、检测方法和技术的研究都要聚焦解决这一研究差距。

(二)人在回路的分析方法

在可预见的未来,一种纯粹基于机器的方法不太可能像人类一样精确地处理语言数据,从而有力地检测恶意信息。报告中讲到的一种人在回路的方法,该方法同时结合了计算机的优势(工作迅速、可靠并可扩展到大量数据)和人类的优势(对数据进行有意义的解释并结合上下文),最大限度地提高了当前技术的回报。然而,这种方法需要数据摄取方面的专业知识,并且整个过程是由专家驱动的。兰德公司建议美国政府投资发展专业知识,适当支持恶意信息的早期检测工作。这种专业知识将包括数据科学、社交网络分析、文本分析以及针对特定目标受众的文化/语言专业知识。

声明:本文来自学术plus,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。