作者
中国邮政储蓄银行软件研发中心高级信息技术专家 潘华
中国邮政储蓄银行软件研发中心 李北川 段向欢 董卉 田猛
随着移动金融的快速发展,移动终端已成为用户进行金融交易、支付和投资时不可或缺的服务渠道。但是,日益严峻的移动信息安全问题对金融机构和移动终端用户构成了极大的威胁,如数据泄露、恶意攻击、数据篡改等。因此,如何在海量的移动终端数据中识别和发现潜在的信息安全风险,已成为金融行业亟待解决的问题。
传统的风险检测方法主要依赖规则和异常检测,但其在面对新型攻击和复杂攻击时则效果欠佳。大数据和机器学习技术的发展,为解决上述问题提供了新的途径,即构建基于数据驱动的智能风险预警模型,目前该类智能模型已逐渐成为解决信息安全问题的重要抓手。本文在对金融业移动终端信息安全风险进行深入分析的基础上,提出一种基于GBDT、随机森林和XGBoost算法叠加验证的移动终端信息安全智能风险预警模型(以下简称“智能风险预警模型”),并对该模型进行验证。
一、移动终端风险预警研究现状
近年来,许多专家学者和研究机构在移动终端信息安全风险预警领域进行了广泛的研究。目前,金融机构对于移动终端风险预警采取的常见方法如下。
一是安全协议与加密技术,即通过改进加密算法和安全协议来保障移动终端数据的安全传输。
二是恶意软件检测,即通过杀毒软件识别和预防恶意软件攻击,保障移动终端的数据安全。
三是用户行为分析,即通过分析用户的历史数据与行为模式,识别异常行为并预警潜在的安全风险。
四是AI智能分析,即通过机器学习与风险评估等方法进行移动终端信息安全风险预警分析。随着AI技术的持续进步与发展,AI智能分析在风险预警领域得到长足发展。
伴随科技的快速进步,上述移动终端预警方法的不足之处逐渐显现,金融机构信息安全风险防御压力不断增大。金融机构需要设计新的信息安全智能风险预警模型,即通过有效整合机器学习模型,积极利用新兴技术探索多维度的综合性机器学习算法,打造更加完善的移动终端智能风险预警解决方案。
二、智能风险预警模型设计思路
传统移动终端安全预警策略的配置多依赖专家与管理人员的安全经验,不同产品在不同的应用场景下会产生误报或漏报等现象,需要管理人员不断处理同类问题。此外,问题处理不及时等因素也可能影响生产业务办理或造成安全风险。
针对上述痛点,笔者团队利用移动终端历史数据进行特征提取,训练了智能风险预警模型。以往机器学习模型多采用单一算法或增加评估权重等方式来提升模型的准确性和稳定性,但笔者团队在验证过程中发现,采用单一算法无法有效避免欠拟合或过拟合情况的发生,从而影响智能风险预警的准确性和适应性。为解决这一问题,笔者团队采用模型叠加验证方法,通过叠加验证整合风险预警评估的方法,进一步完善了模型训练策略。
在智能风险预警模型架构中,数据层负责进行数据准备,特征层根据智能风险预警模型训练目标完成数据特征提取,模型层利用特征数据持续进行模型训练和模型验证,最终形成稳定的智能风险预警模型(如图1所示)。
图1 智能风险预警模型架构
1.数据采集
移动终端数据可以从多个数据源进行采集,包括用户行为日志、设备信息、应用软件、网络环境、国家信息安全漏洞共享平台(CNVD)等,可采集登录行为、访问行为、操作行为、设备行为、应用行为、网络流量、时间异常等数据。
因采集到的数据不可能完全符合数据特征提取要求,所以需要对数据进行治理,包括数据清洗、数据去重、数据补全、数据脱敏、数据标准化等,以确保数据的准确性和一致性,经过治理的数据将是数据分析的重要输入内容。
2.数据特征提取
为了提高智能风险预警模型的准确性,需要根据风险预警的目标准备相关数据集,并对数据集的特征进行筛选,提取与安全风险相关的特征进行模型训练,数据特征提取主要包括以下几个方面。
一是用户行为特征提取,分析用户的操作行为,提取出具有代表性的操作模式特征,用于用户行为分析与训练。二是设备特征提取,包括设备型号、操作系统、配置变更、网络连接情况等信息,并分析设备的安全性和潜在的安全风险。三是时间特征提取,包括行为发生的时间点、频率和周期,以及是否在非工作时间或非常规时间进行操作,通过分析时间异常与否来判断是否存在安全风险。四是地理位置特征提取,包括设备地理位置、用户联机地理位置等,通过分析设备或用户在短时间内地理位置大幅跳跃等操作,判断是否存在一定的安全风险。五是敏感数据操作特征提取,包括频繁访问敏感文件、数据库,异常访问敏感接口、更新或删除操作等行为,分析该设备或用户历史操作行为是否存在安全风险。六是网络通信特征提取,包括通信数据流量、网络设备路径、网络环境等,识别异常网络行为和潜在攻击迹象。
提取的特征数据不同,训练出来的模型也会不同,金融机构可以根据模型的应用场景,利用数据特征差异化训练模型。
3.模型训练
由于网络安全对金融行业的重要性,金融机构在设计模型时需侧重安全维度,秉承宁枉勿纵的原则,但是过多安全因素的约束,往往会导致误报率较高的问题。为了在尽可能保证安全性的前提下进一步降低误报率,笔者团队在智能风险预警模型中引入了基于GBDT、随机森林和XGBoost算法的叠加验证模型进行安全风险验证(如图2所示)。
图2 基于GBDT、随机森林和XGBoost算法的叠加验证模型
首先,分别使用上述三种算法进行模型训练,得到初步的预测结果。其次,采用叠加验证的方式将三种算法的预测结果进行融合,叠加验证模型的核心在于通过对不同算法的结果进行加权组合,以提高智能风险预警模型的整体预测精度。最后,通过交叉验证确定各算法的权重,并结合累计分值的方式对风险进行综合评估。
4.权重累计分值的风险评估方法
在智能风险预警模型中,每个风险事件的评分通过GDBT、随机森林、XGBoost三种算法的预测结果加权求和而成,计算公式为:
Score=P1×W1+P2×W2+P3×W3
其中Score为定义总分,P1、P2、P3为算法结果分值,W1、W2、W3为权重。
通过GBDT、随机森林和XGBoost单一算法进行评分,结果分别为P1、P2、P3,将取值范围换算为0~100的数值,便于风险等级评估,使权重累加之和为1。智能风险预警模型训练验证采用交叉验证和历史数据分析法,根据验证结果持续对P1、P2、P3的权重进行优化,使其达到移动终端安全风险预测的最佳效果,以保证智能风险预警模型预测的准确性。
在模型训练阶段,根据训练分值对应的风险点,通过有监督学习的方法,将风险事件划分为超高、高、中、低不同的风险级别,根据风险等级设计相关的风险预警策略,如触发业务阻断、安全验证、风险告警等。
三、智能风险预警模型应用场景
智能风险预警模型能够解决移动终端设备使用及同服务端交互等信息安全问题,在保护用户个人信息和防止数据泄露场景中将起到重要作用,如恶意软件、病毒检测、隐私泄露、钓鱼网站和诈骗信息、数据泄露、网络攻击等威胁场景。此外,该模型还可以有效提升智能风险预警的安全性与工作效率。针对不同应用场景或者移动终端类别,可以通过对数据特征提取偏好及计算方法权重的调整,提升模型泛化能力和多场景自适应能力,从而将模型应用到更加多元的场景和环境中。
在未来的场景应用中,笔者团队将从以下方面对模型功能进行持续改进和拓展:一是引入更加海量的数据源和特征信息,提高风险预警模型的全面性和准确性;二是持续优化机器学习算法和深度学习等技术,提高模型的预测精度和泛化能力;三是加强与其他安全系统的联动和协作,形成更加完善的安全防护体系。
智能风险预警模型通过使用生产数据进行验证,在预测精度和泛化能力方面均有出色表现,在移动终端安全风险预警方面具有较高的实际应用价值。但是,在应用到业务系统、消费支付系统等其他场景时,智能风险预警模型可能存在一定的局限性,笔者团队将在未来的研究中不断探索和完善,通过持续的数据训练与权重优化,使其为金融业移动终端信息安全提供更加全面和有效的支持。
此外,智能风险预警模型的应用能够显著降低用户遭受欺诈和资金损失的风险。这种强有力的安全保障措施能够提升用户对金融机构的信任感,增强用户黏性,使用户能够更加放心地使用移动应用产品进行各类交易,从而推动金融机构整体数字化水平的提高,并大力促进数字金融的发展。
本文刊于《中国金融电脑》2025年第2期
声明:本文来自中国金融电脑,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。