作者:中国工商银行大数据与人工智能实验室

面对日益复杂的国际和国内金融环境,我国反洗钱监管要求日趋严格,根据《中国人民银行关于加强反洗钱客户身份识别有关工作的通知》和《金融机构大额交易和可疑交易报告管理办法》等监管要求,金融机构需建立一套多层次、多维度、智能化的反洗钱管理体系。与此同时,科技与金融服务的深度融合使得反洗钱系统的全面升级和体系重构迫在眉睫。借助大数据和机器学习等科技力量,直接从数据中“学习”信息,完成模型的创建和优化迭代,可以帮助资管机构有效提升合规水平与数据探索综合能力。

一、银行反洗钱现状与痛点

在机器学习技术应用的过程中,最常见的障碍在于缺乏海量的训练数据作为支撑。现实中数据往往是割裂的,数据孤岛问题普遍存在,公司部门之间数据流动困难,同行业数据难以共享。这类问题在反洗钱场景下尤其突出。迁移学习(Transfer Learning,TL)的思想符合当前反洗钱业务在跨机构、跨地域、跨境下的发展现状,能够有效提升反洗钱模型的精准性并满足个性化需求。反洗钱业务架构如图1所示。

图1 反洗钱业务架构

工商银行于2017年启动新一代智能反洗钱系统的建设,期望通过搭建数字化、智能化、开放化的全球反洗钱系统,实现反洗钱工作流程全覆盖,满足全集团以及同业金融机构的洗钱风险防控需求。

为此,工商银行搭建了企业级的反洗钱监控平台,包括大数据平台、云平台、机器学习平台等在内的平台底座,以实现高效、灵活的反洗钱监控服务;依托大数据平台和机器学习平台,在专家规则的基础上,利用数据资产,深度挖掘数据特征,运用高维特征工程技术和机器学习算法,精准定位客户洗钱活动,提高洗钱风险监测的准确度,并期望通过大数据与AI的技术推广反洗钱监测体系,助力集团境外子机构和同业金融机构,加速反洗钱的智能建设,保障集团境外机构履行反洗钱和反恐怖融资的法定义务和社会职责,有效预防和控制反洗钱领域的合规风险、声誉风险和法律风险。

二、迁移学习介绍及关键技术

反洗钱工作是一类业务复杂的机器学习应用场景,常面临数据规模小、样本少的问题。在跨机构、跨地域、跨境合作的场景下,又存在不同区域特征差异大和数据分布偏移等特点,导致直接合并数据建模将不满足传统机器学习对于建模数据独立同分布的首要条件。为此,本文考虑将迁移学习技术引入反洗钱业务场景,基于工商银行反洗钱网络赌博模型,探讨将迁移学习技术引入传统机器学习建模对反洗钱业务的改善效果。

迁移学习是运用已存在的知识对不同但相关的领域问题进行求解的一种机器学习方法,可解决机器学习模型与样本数据不足、标签数据少的问题,因此本文拟借用迁移学习的思想解决反洗钱场景下小样本的问题。在迁移学习中,已知或可获得知识的域称为“源域”,建模求解的目标称为“任务”,目标任务所在的域称为“目标域”。其中“域”包含两个部分:数据特征X和特征分布P(X)。

迁移学习是人类与生俱来的一种能力。比如,如果我们会打羽毛球,就可以类比着学习打网球。因为这两类活动之间存在极高的相似性,两个不同域共享的特征越多,迁移学习越容易,否则越困难。因此迁移学习的核心是找到源域和目标域之间的相似性,包括数据相似或任务相似等。

迁移学习可用于解决四个矛盾:一是机器学习模型与样本数据不足、标签数据少的矛盾;二是大数据与算力不足的矛盾;三是通用模型与个性化模型的矛盾;四是针对冷启动等特定需求的矛盾。本文借鉴迁移学习主要是解决机器学习模型与样本数据不足的问题。

依据迁移学习知识的形式可将其迁移学习分为五类,定义见表1,本文重点研究针对传统机器学习算法的迁移学习实现方法。

表1 迁移学习方法概览

三、工商银行迁移学习赋能反洗钱验证与实践

本文基于工商银行广东分行和黑龙江分行2019年全年的反洗钱业务数据进行迁移学习建模,其中,广东分行的交易总量是1.68亿条记录,黑龙江分行的交易总量是0.21亿条记录。根据迁移学习对于数据来源的划分依据,本文将广东分行数据作为源域,黑龙江分行数据为目标域。

源域已完成搭建的反洗钱模型定义为源域模型,指仅利用源域数据训练得到的反洗钱模型;目标域模型是指利用与源域数据相同特征处理逻辑的目标域数据训练得到的反洗钱模型;迁移模型是本文设计的方案。本文根据数据结构设计方案,因参数迁移常用于非结构化数据、关系迁移常用于图数据,而广东分行和黑龙江分行提供的是结构化数据。所以本文搭建嫁接迁移学习、样本迁移学习以及特征迁移学习三种模型。

1.嫁接迁移学习方案设计

金融行业的特殊属性使之对数据资产的隐私具有严格的保护要求,导致同业金融机构、金融机构内部组织之间的数据互相不可见。洗钱业务涉及违法、犯罪等活动,与合法的正常交易行为相比,数据样本较少,机器学习模型效果欠佳。此时,可通过嫁接迁移学习的策略利用包含充足样本和标签数据的源域数据资产,提升目标域模型的准确性。嫁接迁移学习方案设计如图2所示。

图2 嫁模迁移学习方案流程

首先,利用源域样本训练模型,本文采用集成算法的思想,通过源域样本训练两个GBDT弱分类器和一个LR弱分类器,作为源域模型;其次,根据对源域样本进行的数据处理和特征工程,对目标域样本进行相同处理,并将处理后的目标域样本输入三个源域模型,分别得到目标域样本在此三个源域模型下的预测值;最后,将目标域各样本在源域模型的预测值作为样本新增的三维特征与初始特征宽表合并,得到扩维后的特征大宽表,将其用于训练模型,得到基于嫁接迁移的反洗钱模型,具体方案步骤见表2。

表2 嫁接迁移学习方案设计步骤

2.样本迁移学习方案设计

工商银行境内分行因组织划分等原因,分行间业务体量不均衡,因此集团内部提出跨区域的合作建模需求。由于银行内部实施同一套反洗钱监测系统,所以各内部组织采集的数据的原始特征字段相同。在源域和目标域样本在数据可见的场景下,可采用样本迁移学习的策略,将源域的数据引入目标域辅助目标域建模以提升其机器学习模型效果。

样本迁移学习是指从源域样本中筛选出与目标域建模样本相似的数据,合并到目标域进行建模的过程。样本迁移方案设计如图3所示。

图3 样本迁移实施方案流程

首先,将源域样本和目标域样本直接合并,划分训练集和测试集训练模型,并将训练得到的模型定义为域分类器;其次,将源域样本输入域分类器,得到域分类器下各源域样本的预测值;然后,选取合适的阈值对源域样本的预测值进行划分,将大于阈值的源域样本、小于阈值随机抽取10%的源域样本同时添加到目标域;最后,基于样本迁移后的目标域样本训练反洗钱业务机器学习模型,具体方案步骤见表3。

表3 样本迁移学习方案设计步骤

样本迁移的核心是域分类器的样本筛选,通过域分类器将源域中与目标域样本相似的数据合并到目标域,既增加目标域的数据体量,又保持目标域样本的分布,可有效解决目标域样本不足的问题。

本文通过特征选择和样本筛选两步进行域分类器对源域样本的筛选。首先,基于对业务的理解,挑选与洗钱业务强相关的交易特征;其次,通过群体稳定性指标(Population Stability Index, PSI)计算并选取源域和目标域间具有明显差异的交易特征,作为域分类器的训练特征;然后,对源域和目标域直接合并后的样本抽取训练特征字段训练域分类器;最后根据阈值,对样本的域分类器预测值进行筛选。

3.特征迁移学习方案设计

伴随反洗钱业务全球化监管的加强,工商银行境外机构对反洗钱业务的智能化建模提出更高要求。由于建模数据体量不足,境外与境内机构存在合作建模的需求,另外集团因实施同一套反洗钱监测系统,境内、境外机构采集数据的原始特征字段相同或相似。然而,洗钱行为与地域和国家等信息强相关,即使特征字段一致,样本分布也可能出现较大偏差。此时,将源域和目标域样本通过特征转换的方式映射到高维空间,在高维空间中源域和目标域之间的样本分布一致满足机器学习建模条件实现境内外机构的合作建模需求。

特征迁移学习是指将源域和目标域样本通过特征变换映射到同一特征空间,以减少源域和目标域在原始特征空间的偏差,从而充分利用源域数据助力目标域业务场景下的机器学习建模。特征迁移学习方案设计如图4所示。

图4 特征迁移实施流程

首先,挑选源域和目标域的连续型特征,计算相同特征字段之间的群体稳定性指标PSI,设定群体稳定性指标阀值。当两列特征计算出的PSI指标大于阀值时,表明特征在不同域间特征差异明显,定义为非共有特征,并将其分别重新命名为带所属域标志的新的特征字段名,而两列特征计算出的PSI指标小于阀值时,表明特征在不同域间特征无明显差异,定义为共有特征x0

其次,将源域和目标域的离散特征以及求解的非共有连续特征按照特征维度合并到共有特征,形成新的特征空间[x0;xs;xt]。

然后,根据特征空间[x0;xs;xt]分别对源域和目标域样本进行统一编码,共有特征不做处理,离散特征进行count-encoding编码,非共有连续特征进行null值填充。

最后,将在特征空间[x0;xs;xt]完成编码的源域和目标域样本按照行拼接合并,训练反洗钱模型,具体方案步骤见表4。

表4 特征迁移模型探索方案步骤

工商银行反洗钱业务迁移学习算法引入传统机器学习建模的实施案例实现了银行与同业跨机构、银行内部跨部门、跨境合作的有效性证明,并设计了三种策略不同的方案。

基于广东分行和黑龙江分行数据可直接验证嫁接迁移和样本迁移方案的可行性。针对银行境内外机构的特征迁移学习,因境外机构数据与境内机构数据只存在同一字段数据分布有偏差的情况,而数据处理方式都相同,故借用广东分行和黑龙江分行数据验证方案的可行性,为进一步的验证提供有效性证明。

试验结果如表5所示,嫁接迁移、样本迁移以及特征迁移三种方案在广东分行和黑龙江分行的数据表现上,评估指标AUC均达0.99以上,相较于目标域不采用迁移学习的策略,嫁接模型AUC提升31%,样本迁移和特征迁移均有效提升23%;而在50%召回的评估指标下,嫁接迁移、样本迁移和特征迁移均由0.33提升至0.36。

表5 迁移学习方案效果

测试结果表明,本文探索的三种方案可有效解决目标域训练机器学习模型样本不足的问题。

四、总结与展望

综上所述,迁移学习技术是解决金融行业数据权限隔离、模型样本不足问题的有效实践,可为金融业务的快速发展提供有效支撑。实现金融同业机构之间的模型复用以及机构内部组织之间的数据共享。本文实践的策略满足金融行业同行机构以及机构内部组织间数据隐私安全保护的要求,在运用时提供灵活的数据资产或源模型预测特征。由此表明:迁移学习技术引入反洗钱业务初步满足了金融行业的合作需求,有效解决业务建模数据不足的问题,形成了反洗钱业务在跨机构、跨地域、跨境场景中的分层应用。

当同业机构或内部组织应用本文设计方案时,需和源域数据方对齐方案。特别地,当使用样本迁移和特征迁移时,涉及到数据共享,此时需在确保数据隐私安全的监管要求下进行或使用嫁接迁移学习方案。此外,工商银行向同行输出模型须保证数据安全,还需配合合作方完成迁移模型的搭建。

未来,工商银行还将在迁移学习的基础上进一步推进反洗钱的智能化建设。包括但不限于:改进当前样本迁移和特征迁仍需数据共享,否则应用场景受限的不足之处;提升反洗钱模型对接同行业务时的封装性,降低使用门槛等,推进反洗钱模型的精准性以及反洗钱业务的发展。

文章将刊载于《中国金融电脑》2020年第10期“金融科技创新”栏目

声明:本文来自中国金融电脑,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。