文 / 中国人民银行反洗钱中心课题组
近年来,利用知识图谱技术对数据进行深层次分析,发掘其中蕴含的巨大价值,已逐渐成为各行业在数字化转型过程中的一种重要发展趋势。通过知识图谱技术,可以对数据进行全面系统地整合,多维快速展现业务场景,大幅提升业务感知能力。在反洗钱领域,这一特性可以通过构建主体间交易关系、社会关系等知识系统,向分析员清晰展示资金交易轨迹、犯罪团伙组织结构等信息,并进一步通过知识融合、知识推理等手段揭示潜藏的洗钱风险。
知识图谱的主要应用优势
随着数据量的不断增加及交易链条的不断延伸,在上亿条数据中寻找多层级交易关系需要耗费大量计算开销,数据库性能可能难以满足,从而导致数据库难以响应业务需要。知识图谱通过将数据以图形化形式组织、存储和应用,将原本关系型数据库中独立的记录关联在一起,真实还原交易流转情况。知识图谱可灵活适应不断变化的业务需求,在满足大规模数据增长的同时,仍能保持较高的查询性能。可以说,知识图谱在交易关系、社会关系等具备长链条、多层次特点的反洗钱数据上,具备较强的实用价值。
1.分析更加快捷
知识图谱为查询相关数据提供了卓越的性能。知识图谱在构建过程中建立起基于交易、社会联系等关系,从而使得在使用过程中,查询和分析成本呈线性增加;而关系型数据库的查询和分析成本随着查询层数的增长呈现指数增加的趋势。交易链条越长,知识图谱的优势越明显。因此,在实际工作中,利用知识图谱技术可有效提升反洗钱监测分析工作的效率。
2.表达更加灵活
知识图谱可以表达更加复杂和多样的关系。在知识图谱中,节点之间的关系可以是任意的,且可以包含属性,提供了更为丰富的关系展现方式。此外,知识图谱可按需灵活调整,实时满足业务的变化。用户可以通过在图谱中不断添加或删除新的节点、边或属性,以适应数据规模扩展或缩减的需求。
3.智能化模型建设基础设施
由于具有结构良好的实体间关系信息,知识图谱可用作数据挖掘、机器学习等技术的基础设施,通过推断间接事实和知识,为智能化模型建设提供支撑。
知识图谱的基本构建过程
本质上,知识图谱是基于语义网络而形成的相互关联的知识集合,可以理解为蕴含关联关系的多维网络。这个网络以图的形式准确反映现实世界中事物及事物间的联系。构建知识图谱的过程主要分为信息抽取、知识标注、知识加工和知识推理等4个主要步骤。
步骤一:信息抽取。该过程利用自动化技术从结构化或非结构化数据中,抽取构建知识图谱所需的实体、实体属性以及关系等信息,从而获取知识单元。构建一个反洗钱知识图谱的数据来源主要有两大类:一是交易信息,主要来源于日常交易行为相关的各数据要素;二是其他信息,例如主体的身份、住址、社会关系、可疑行为描述等内外部数据。对于不同的数据来源,知识获取的难度和手段也有所不同。对于结构化数据和半结构化数据,知识获取的过程相对容易。对于自然语言文本、多媒体等类型的非结构化数据,需要用各种信息抽取手段提取隐藏其中的信息。
步骤二:知识标注。该过程通过梳理领域知识、术语词典、人工经验等知识体系基础,根据一定的规则对实体进行自动或者手动标注。例如,在基于资金交易的知识体系中,可将某个交易主体标注为“涉嫌XX类型犯罪”“XX团伙核心成员”等。一个实体的标签可能有一个,也可能有多个。当需要依据某一特征开展分析时,根据标注即可直接筛选出相关主体。
步骤三:知识加工。通过上述步骤,可以得到一系列基本的事实表达。然而事实本身并不等于知识。要最终获得结构化、网络化的知识体系,还需要经历知识加工的过程:首先,通过实体并列关系相似度计算、实体上下位关系抽取等自动化技术生成知识本体。在生成知识本体过程中,还需消除存在的矛盾和歧义。例如,对于同一账户对应不同主体的矛盾情形,可以通过结合其他信息(例如身份信息、交易对手信息、社会关系等),利用消歧技术分析出账户的真实所有人。此外,构建完成后的知识本体需进一步执行质量评估,对知识的可信度进行量化,通过舍弃置信度较低的知识,保证最终进入知识库中的新知识质量。
步骤四:知识推理。很多时候由于知识的不完备性、数据的稀疏性等特征,初步搭建完成的图谱会有很多缺失(包括属性缺失、关系缺失等)。此时,就需要通过知识推理的方法,利用已有知识和经验进行推理求解,补齐相关缺失,实现进一步的知识发现。例如,面对一笔已知付款账户而收款账户缺失的交易,通过运用知识推理手段,可根据已有知识尝试推断出该笔交易的收款账户信息,从而达到补全缺失的目的。
知识图谱在反洗钱监测分析领域的主要应用场景
从知识图谱的数据处理方式和构建过程可以发现,其在反洗钱监测分析领域可以发挥巨大作用。通过构建知识系统,可实现交易主体间的关系管理和探查,大幅提升对未知关系的挖掘能力,深度揭示潜藏的洗钱风险。因此,知识图谱可用于众多反洗钱监测分析业务场景,为分析工作提供了大量便捷的技术手段。
1.实现资金流向大纵深穿透式分析
使用传统的关系型数据存储方式对交易行为进行分析,需要进行各类复杂的数据关联,会消耗大量的计算资源,分析复杂度极高。基于主体间资金转移等行为建立交易网络,并融合交易主体的多维信息构建出知识图谱,层次化清晰展现交易的相关信息,通过综合运用智能化大额和可疑交易分析模型及图计算算法,可精准追踪主体间的资金流转路线,从源头的账户/卡号等追查至最终收款主体(或者反向追踪),从而识别出可疑的洗钱犯罪路径及相关人员,并通过层层关联可疑人员的交易轨迹,最终形成可疑人员、账户、资金流转路径等综合性分析结论。
2.展现资金网络全貌及团伙特征
洗钱团伙不仅规模较大、网络结构异常复杂,且可能涉及成千上万个实体与关系,账户之间往往呈现环状、星状、金字塔状等特殊结构,同时还存在交易敏感时段、年龄和职业分布等特殊的风险特征。基于多维信息构建知识图谱,结合数据挖掘、机器学习等算法,可自动计算和识别网络边界,分析其中的核心账户和重要节点,构建具有反洗钱区分度的群组,加强对反洗钱团伙的识别能力。在此基础上,通过对可疑群体进行风险排序和深度分析,也便于重点关注和排查风险度较大的团伙。
3.多维度刻画展现主体画像
利用大数据和知识图谱技术实现主体画像,充分融合主体间交易关系,基于身份信息、业务模式、行为特征、经营特点、社会关系等数据,以目标主体为核心,可对主体及其关联关系进行全景式分析和展现。通过精准画像,全面分析和展现机构与机构之间、机构与个人之间以及个人与个人间的复杂联系,生成担保关系、受益所有人关系、资金交易等关系图谱,将交易主体的骨干关系及外围联系准确地展现出来,实现反洗钱监测分析手段的升级转型。
4.实现异常交易实时监测与预警
基于知识图谱,充分结合外部有效数据源,通过运用主体资金交易异常行为监测等方法,可快速挖掘出符合洗钱特征的异常图谱结构(例如,频繁汇入汇出、集中/分散型转入/转出、环状交易等),进而发现并定位出复杂的异常交易路径。基于业务经验和机器学习算法获取并设置风险预警阈值,可进一步探索并建立异常行为预警模型。一旦相关指标达到或超过阈值,该模型可实现自动报警,提示业务人员注意相关异常。随着信息的逐步丰富,该模型还可运用知识加工和知识推理等手段完善基础知识图谱,不断提高预警的准确性和及时性。
下一步工作的建议
1.进一步加强技术与业务相融合的研究
知识图谱技术虽然能为反洗钱监测分析工作提供较大助力,但在具体运用时还需要与各种实际的业务场景相融合。例如,在知识获取过程中,对疑点分析、资金及行为情况描述等非结构化多模态数据进行组织、理解并加工时,如何更高效地获取其中关键信息并与其它信息构成关联;如何实现小样本或零样本学习知识推理等。总之,如何有效规避选型和运用过程中的技术风险,实现相关技术的快速高效落地,最大程度地发挥知识图谱技术作用,是实际运用过程中需要结合业务需求逐步研究解决的问题。
2.为业务模型开发打好基础
知识图谱是开发业务模型的一个关键性设施,也是打造反洗钱模型研发环境的基础设施。在做好研究、适配、引进、整合等工作的基础上,选择符合业务需要的图谱技术,有利于加快模型研发的进程,为反洗钱模型研发环境建设打好基础。在模型研发环境建成前,知识图谱可对数据进行提前处理,使之满足建模工作的整体需要。研发环境建成后,前期研发的成熟模型可酌情移植其中,利用知识图谱技术在数据处理、关系构建等方面的特点,助力反洗钱监测分析,解放人工提升效率,充分发挥新技术带来的新动能新优势。
(课题组成员:叶钢 向路 秦伟)
(此文刊发于《金融电子化》2024年1月上半月刊)
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。