作者:兴业银行反洗钱中心 黄闽粤

当前,我国一些商业银行已经积极推进大模型在金融场景中的应用,以促进银行业务的数字化转型。本文将结合大模型在反洗钱可疑交易监测中的应用构想探讨大模型在银行数字化转型中的作用。

一、大模型发展趋势概述

得益于庞大的数据量和出色的模型训练技术,当前大语言模型异军突起,引领着人工智能领域迅猛发展。其中尤以美国OpenAI公司发布的ChatGPT的表现最引人注目,其对人类的语言模式、观念认知达到极高水平,人们对其在各领域的融合应用产生无限遐想,人工智能大模型应用已然成为全球竞争的焦点之一。

目前,我国人工智能大模型已具有一定基础。百度、阿里巴巴、腾讯和科大讯飞等公司均已拥有自己的大语言模型。我国在大模型方面已建立起涵盖理论方法和软硬件技术的体系化研发能力。但在这一趋势下,也应看到,人工智能大模型离不开多项技术的融合创新,在前沿基础理论和算法上,我国与国际先进水平还存在一定差距。

为筑牢智能时代的根基,相关公司需要瞄准短板,着力推动大模型领域生成式算法、框架等原创性技术突破;同时,还应发挥我国应用场景优势,进一步深耕垂直领域,以行业专有训练数据集为基础,打造金融、医疗、电力等领域的专业大模型,以高质量应用和数据反馈技术优化,帮助大模型迭代升级。考虑到大模型能够加快金融产品的开发和引入,提升客户体验,提高工作效率,增强银行的服务能力,提升运营效率,一些商业银行正在积极探索大模型在金融场景中的应用,以促进银行业务的数字化转型。

二、大模型应用的工作基础:

搭建“数智中台”

“数智中台”是开展金融业务场景智能化创新、落地金融领域大模型应用的基础,旨在摒弃“小作坊”“烟囱式”建设思路,构建标准化、流水线、一体化的人工智能研发运营体系,充分加强系统跨部门主办,从金融集团的高度提升人工智能模型应用建设的全生命周期流程的标准化。

“数智中台”通过构建具有统一的人工智能资源纳管、标准模型及大模型训练环境、模型部署运行、应用编排与服务、模型资产及服务资产管理和特征开发等全链路功能的企业级数据智能基础服务平台,形成企业级的应用标准,实现人工智能算力、存储资源、数据集、算法的集中持久化管理和复用,并构建可通用和可复用的人工智能研发运营一体化(Model/MLOps)模型生产流水线,标准化开发工具及应用服务接口,减少应用重复开发,全面提高复用性和生产效率,最终使业务人员能够轻松地根据业务需求实现一站式、端到端的人工智能落地赋能。

同时,以数据和技术为关键要素,“数智中台”通过融合数据中台和业务中台,以组织机构改革为内生发展动力,通过数据自助化、数据产品化、智能员工化、运营数字化、云数智一体化以及组织融合化等举措,全面加快推动银行经营和治理模式的数字化转型(如图1所示)。

图1 “数智中台”架构

在银行数字化转型中,通过在“数智中台”上构建大模型系统具有广泛的应用场景。

1.虚拟数字客服

虚拟数字客服能够通过更智能、更人性化的对话,快速识别客户真实需求,使银行客户服务更富有温度。目前,虚拟数字客服已覆盖信用卡、个人金融、网络金融和企业金融等场景。

2.专业财富顾问

通过对特定领域的知识学习,打造虚拟的专业财富顾问,可辅助提供精确定位和回复的金融咨询服务,提升服务能力,实现成本降低和效率提升。

3.多模态内容的自动加工生产

利用AIGC技术协助银行进行金融资讯、品牌宣传、产品介绍、商城货架等方面的视频、图像和文本的自动加工生产,提高金融素材生产的效率,降低人力成本。

4.“AIGC+元宇宙”

在构建元宇宙应用场景的过程中,需要大量数字内容的支持,仅靠人工设计和开发费时较长,而通过AIGC技术对人物、道具、场景等数字内容进行生产,可以有效提高场景开发的效率。

5.资金报价助手

与中国外汇交易中心的IDEAL平台对接,为银行间交易对手的初次接触、产品咨询和询价报价等场景提供服务,及时挖掘市场交易需求,提高资金交易的成交效率。

三、在反洗钱数字化转型中

应用大模型技术

随着商业银行对“风险为本”反洗钱工作理念的深入践行,基于深度学习的智能模型正逐步应用到反洗钱可疑监测分析场景。如何借鉴和利用大模型强大的自然语言处理(NLP)和深度学习能力,对推动新时代反洗钱工作的高质量发展具有重要研究价值。

1.反洗钱工作的痛点

反洗钱工作的数字化转型是一个漫长而艰巨的系统工程。根据“风险为本”的原则,银行可利用大模型技术解决当前反洗钱工作所面临的痛点和难点,并逐步推进反洗钱体系的智能化转型升级。从我国银行业的角度来看,当前反洗钱工作的痛点主要体现在以下三个方面:

一是基层工作量较大。银行基层网点工作人员需要兼顾履行反洗钱义务,部分受访者表示在白天工作期间没有专门的时间处理反洗钱工作,只能通过加班集中处理,工作负担较为繁重。

二是部分人员专业性不强。银行在可疑交易甄别分析工作上严重依赖人力。随着洗钱犯罪手法的不断改进和新型洗钱犯罪方式的出现,可疑交易甄别分析工作的难度不断提高。然而,在实际工作中,巨大的任务量使得部分甄别人员难以对大部分可疑交易进行深入分析,导致大量误甄别的情况发生。这对可疑交易报告质量和反洗钱工作的有效性产生了不利影响。

三是“口口相传”式经验传播导致洗钱经验共享效率低下。目前,各种新型洗钱手段层出不穷。银行通常需要通过口头传播的方式在本机构内传递新发现的洗钱手法,这种方式效率低且准确性不高。

要解决上述问题,银行可以从可疑交易分析入手,基于大模型拓展和升级反洗钱系统功能,实现可疑交易分析报告的自动生成,以新的思路、新的方法和新的举措推动反洗钱工作质效的提升,更好地减轻基层的工作负担。

2.系统功能

在反洗钱可疑交易分析的工作场景下,反洗钱人员利用反洗钱监测系统预警案例和可疑特征,通过与反洗钱大模型交互生成分析报告。例如,甄别分析人员可以在聊天界面输入:“请根据**客户的身份信息和可疑特征描述开展分析排查。”同时,引入或拷贝某个预警案例及可疑特征描述、可疑主体及对手的身份信息和相关尽职调查信息。反洗钱大模型根据可疑特征、客户身份信息和尽职调查信息进行综合分析研判,按照学习到的分析逻辑生成符合反洗钱专家逻辑的分析报告和初步处理意见。甄别分析人员还可以在原报告基础上继续输入更多问题和相关信息,让反洗钱大模型按要求进一步拓展分析,生成更为合理的分析报告。

3.对接方案

如图2所示,反洗钱大模型可作为独立模块,与现有反洗钱系统的解耦交互,流程大致如下:

图2 系统对接方案

(1)从反洗钱系统获取可疑交易信息,包括客户基本情况、资金流向等;

(2)将可疑交易信息作为参数,通过反洗钱大模型生成可疑点分析和初步结论;

(3)整合基本情况表、资金流向表和详细分析报告,生成可疑交易报告;

(4)反洗钱人员对生成的报告进行审核、微调和补充,形成最终上报的可疑交易报告;

(5)反洗钱人员对反洗钱大模型生成的可疑交易报告进行评分,系统将初版报告、评分和修改后的报告一同存储;

(6)存储达到一定数量的打分报告后,系统通过数据中台获取增量训练数据;

(7)系统利用增量数据对反洗钱大模型进行训练,以增强其鲁棒性。

4.报告生成方案

应用反洗钱大模型后,客户可疑交易报告可分为三大部分,如图3所示。

图3 客户智能监测可疑交易报告

(1)资金交易及客户行为章节包括基本情况表和资金流向表。该部分内容由反洗钱系统生成,数据来源于数据中台。

(2)资金交易及客户行为章节的关联信息由人工判定,并进行选择性补充。

(3)可疑点分析和初步结论章节可由反洗钱大模型生成,可由人工修改和打分评价。

5.模型训练与推理方案

反洗钱大模型基于大型语言模型(Large Language Model,LLM)预训练模型,采用提示学习(prompttuning,P-tuning)的方式进行模型微调,这一训练模式将有助于反洗钱智能监测分析模型的应用落地。反洗钱大模型采用了类似ChatGPT的训练技术,通过大量中英文标识符的训练,辅以监督微调、反馈自助和人类反馈强化学习等技术,形成了一个性能优秀的训练模型。

基于LLM模型原理进行反洗钱大模型微调主要分为以下几个步骤。

(1)建立反洗钱智能监测分析模型数据集

基于《反洗钱智能监测可疑交易报告》的初始模板、反洗钱智能系统的业务数据以及业务部门的实际需求,采用人工标注的方式来建立反洗钱智能监测分析模型的数据集。

具体步骤如下:第一,收集商业银行向人民银行上报的优秀可疑交易排除分析报告和可疑交易报告,汇总客户身份信息、交易信息、洗钱风险事件等数据,提取报告中的可疑点分析和初步结论。第二,建立反洗钱标注团队,让其负责标注微调训练数据集。

(2)基于P-tuning有监督策略训练反洗钱大模型模型

基于P-tuning方法,结合标注数据,对反洗钱大模型进行微调训练,以使其具备理解指令中所蕴含意图的能力。具体步骤如下:

首先,建立反洗钱智能监测分析测试环境实验室,用于训练微调大模型。然后,基于微调后的模型,在测试集上进行推理和测试。通过统计概率,生成每份样本中概率最高的5份分析文本。最后,反洗钱工作人员对输出的排查分析结果进行投票,并按照从好到坏的顺序进行标注。根据排序后的标注结果,对模型进行反馈,并训练一个奖励模型(RM)。

(3)使用强化学习方法持续提高模型性能

应用强化学习中的近端策略优化(PRO)技术,进一步优化奖励模型,以实现调优微调过的预训练模型(SFT),形成成熟稳定的模型,具体路径如下:第一,收集更多的可疑交易排除报告、可疑交易报告、洗钱案例、洗钱风险提示等数据。第二,基于微调后的模型(SFT),生成初始分析文本,反洗钱标注团队基于可疑点及相关信息修正分析文本,形成新的可疑提示数据集。第三,将近端策略优化(PRO)方法应用于经过有监督数据微调的预训练模型(SFT)。第四,通过模型预测新的可疑提示数据,输出概率最高的5份文本。使用RM奖励模型对文本进行打分,并计算奖励分值。第五,使用奖励分值对基于近端策略优化方法的模型进行迭代更新。

通过上述步骤,即可完成反洗钱可疑交易报告的生成工作。总体而言,在反洗钱工作中应用大模型技术不仅可大幅降低基层员工的工作量,而且能够有效提高反洗钱可疑交易报告的质量,有助于银行在反洗钱工作中从“被动履职”转变为“主动履职”。

四、结论

通过在反洗钱工作中应用大模型技术,可实现金融数据要素与人工智能要素、业务和科技的双融合。此类应用不仅能够帮助银行节约人力成本,实现“增收节支”的目标,还能在银行业务创新中发挥重要作用。

与此同时,在反洗钱工作中应用大模型的构想还面临着一些问题:一是大模型技术复杂度高、适用场景广泛,并缺乏政策和标准支持;二是尚不能确保大模型的目标和行为与人类的价值观保持一致;三是大模型的可解释性和可预测性较差;四是尚无法确保大模型的行为完全符合伦理、法律准则,这些问题给大模型在金融领域的落地带来了挑战。

在大模型探索实践中,银行可以根据实际业务需求,进一步丰富大模型在银行相关应用的生态。例如,辅助生成政策及市场观点解读、智能质检的规则语句泛化、微信公众号内容生成等。将大模型文本生成的应用模式从单一源扩展到其他金融应用,充分挖掘“金融+大模型”在金融等领域的潜力。

大模型在银行各部门、各业务场景中的深入应用,将推动银行业的数字化转型,并让更多的金融机构认识到数字化转型和科技创新所带来的重大价值和意义。每一次的科技转型变革都将重构行业格局,数字化、智能化、多元化和国际化已成为未来金融行业发展的趋势。

本文刊于《中国金融电脑》2023年第8期

声明:本文来自中国金融电脑,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。