原文标题:Collaborative Honeypot Defense in UAV Networks: A Learning-Based Game Approach
原文作者:Yuntao Wang,Zhou Su,Abderrahim Benslimane,Qichao Xu,Minghui Dai,Ruidong Li原文链接:https://ieeexplore.ieee.org/document/10273619发表期刊:IEEE TIFS笔记作者:李智宇@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈
1、引言
随着通信和嵌入式技术的进步,无人机(UAV)凭借其低成本、三维机动性强及部署灵活的特点被广泛应用于各种领域。由于无人机在提供服务时会面临大量复杂的网络攻击,低/中交互蜜罐作为一种主动防御技术,因其便携性且轻量级为无人机防御提供了经济高效的替代方案。
当前网络攻击呈现出分布式、复杂化和隐蔽化的趋势,无人机之间需要通过大规模协同防御,交换本地蜜罐捕获的攻击信息来实现全局态势感知。然而,这种协作机制会带来显著成本以及隐私泄露风险,若无有效激励,无人机可能不愿意共享攻击数据。设计一种有效的激励机制存在以下挑战:无人机多维信息的不对称性、攻击行为的高度动态性及“搭便车”行为的存在。因此,本文提出了一种新型的基于激励驱动蜜罐的无人机协同防御方案。
下图展示了本文提出的一种基于博弈的无人机蜜罐框架,该框架由多架无人机和一个作为网络运营商的地面控制站(GCS)组成。GCS 会为异构无人机设计一系列合约,每个无人机选择一个合约共享其有效防御数据(VDD)。在部分信息不对称的条件下,最优合约通过利用显示原理推导得出;在完全信息不对称的条件下,其通过一种两层强化学习算法得出。
2、背景介绍
网络模型。如上图所示,该网络由一个地面控制站和多个无人机组成,无人机通过空对空(A2A)链路交换飞行信息,GCS 通过空对地(A2G)链路与无人机通信并执行无人机控制。GCS 可以从部署了蜜罐的无人机处获取并整合防御数据,从而更快地识别攻击并更好地感知态势。
无人机移动模型。该模型将任务时间均分为多个短时隙,假设每个时隙内无人机的位置保持固定。无人机在三维空间中的位置由其瞬时水平坐标和固定悬停高度决定。所有无人机的飞行轨迹由 GCS 预先规划并控制。
信道模型。无人机之间的 A2A 通信链路以视距(Los)传播为主,其信号衰减程度主要取决于两机间的三维欧几里得距离。基于香农边界,通信链路的可用数据传输速率由受发射功率、信道带宽和路径损耗共同影响,同时需考虑其它无人机造成的干扰以及信道噪声的叠加效应。A2G/G2A 通信采用大规模信道衰落模型,其平均路径损耗由视距(LoS)和非视距(NLoS)链路的概率决定。为确保通信质量,每个无人机被分配专用子信道及正交资源块进行上行传输以消除无人机间的干扰。
威胁模型。在基于蜜罐数据共享的无人机协同防御系统中,存在两种威胁可能削弱防御效能:一是自私无人机因资源消耗问题拒绝参与协作,导致整体防御性能降低;二是搭便车无人机通过共享无效数据骗取奖励,既未贡献有效防御数据又打击了诚实无人机的积极性。
3、方案设计
3.1 完全信息场景下的最优合约设计
在理想情况下,GCS 掌握每个无人机的私有类型信息。将无人机分为参与者和非参与者,对于参与的无人机,GCS 将通过耗尽可用预算来设计最优合约,其 VDD 大小受上限值和下限 0 约束;对于未参与的无人机,GCS 将提供零支付合约,即合约的 VDD 大小和奖励均为零。同时,VDD 成本和通信延迟由无人机的类型信息决定,最优奖励策略由响应 VDD 大小线性决定。
3.2 部分信息不对称场景下的最优合约设计
该场景下 GCS 仅知晓无人机的总数及其私有类型分布,不知晓无人机的所属类型。该场景下 GCS 仅知晓无人机的总数及其私有类型分布,不知晓无人机的所属类型。首先,GCS 为不参与的无人机和无法及时传输 VDD 的无人机提供零支付合约,然后通过迭代计动态分配并获得最优 VDD 大小序列,最后根据所参与无人机上传的 VDD 大小计算最优合约奖励。并且最优奖励与无人机共享的 VDD 大小正相关,从而确保了合约的公平性。
3.3 完全信息不对称场景下的最优合约设计
此场景下 GCS 对无人机的私有类型信息一无所知,只知道无人机的总数和无人机类型的总数,且 GCS 可以和无人机重复交互。将 GCS 和无人机之间的一次性蜜罐博弈扩展为马尔可夫博弈,GCS 通过策略爬山算法(PHC)动态调整奖励策略,无人机则学习最优数据贡献量,该双层策略过程在两者之间重复进行直至收敛到稳定值,并利用历史交互数据初始化学习过程以加速收敛速度。
4、实验评估
实验在一个200m×200m×80m的三维空间内进行模拟,包含一个 GCS 和 10 架均匀分布的无人机。无人机悬停高度随机固定于 20~80m 之间,以 20m/s 的最大速度沿预设圆形轨迹飞行(圆心为控制站,半径基于初始水平距离)。每架无人机搭载基于 Raspberry Pi 2 Model B 的蜜罐系统,通过 WiFi 通信。蜜罐系统包含配置文件系统、网络接口模拟器、无人机模拟核心、模拟文件系统、及 VDD 数据库五个组件,能够记录攻击者的IP、端口、指令等数据,并模拟低至中等级别交互。
无人机蜜罐原型的实现架构如下图:
下图展示了不同交互级别的无人机蜜罐的防御有效性、无人机受损率和资源消耗的比较。虽然高交互蜜罐实现了 93.6% 的高攻击检测率,但也导致了最高的无人机受损率和资源消耗,而中等交互无人机蜜罐提供了接近于高交互蜜罐的攻击检测率,无人机零受损率,以及低 CPU 利用率。
图 4 和图 5 分别展示了在部分信息不对称下的最优合约中,不同类型无人机的最优合约 VDD 大小和奖励,图 6 通过比较五种类型无人机的在选择 GCS 设计的不同合约时的效用。结果显示,随着无人机 VDD 成本的增加,最优合约的 VDD 大小和奖励都在下降,并且当不同类型的无人机选择相同的合约时,其效用随着无人机类型的提高而增大。
图 7、图 8 和图 9 分别展示了在部分信息不对称下不同方案中,不同无人机 VDD 成本下无人机的效用、 GCS 的效用以及无人机和 GCS 的效用之和。可以看出,本文提出的方案相比线性合约为低类型无人机带来了更高的效用,相比统一合约为高类型无人机带来了更高的效用,且无人机类型越高,GCS 的效用也越高。
通过如下的图 11 ~ 13 验证了完全信息不对称场景下最优动态合约的收敛性:VDD 大小与 GCS 奖励策略在双层 PHC 学习中逐渐收敛到稳定最优值。结果显示,VDD 大小先增大然后收敛到稳定状态;GCS 奖励先减小然后增大达到稳定状态。图 13 的过程表明,双方通过实时观测对方的系统状态,寻求最优 VDD 大小和奖励策略以不断最大化效用。
5、总结
本文提出了一种基于激励机制的无人机协同防御方案,通过蜜罐博弈框架设计了适应不同信息条件的动态合约机制。在部分信息不对称场景下,通过归纳无人机多维私有信息推导出满足预算约束的最优合约;在完全信息不对称场景下,采用一种双层策略爬山学习算法实现动态合约设计。实验结果表明,该方案能有效激励无人机共享本地 VDD,并在部分和完全信息不对称的情况下,有效提高无人机的效用和协同防御性能。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com
声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。