深圳证券交易所 杨振新

知识图谱是一种语义网络,以结构化的形式描绘客观世界中的概念、实体及关系,由节点和边组成。其中节点代表“概念”或“实体”,边代表两个节点之间的关系。当前基于大数据、云计算、人工智能等现代科技的业务模式创新正驱动着全球范围内的数字化转型。知识图谱是语义理解和知识搜索的基础技术,能够为多个行业的应用决策提供更精准的依据。

知识图谱在证券行业的应用

随着大数据、人工智能技术的不断发展以及计算能力的不断加强,近几年来,知识图谱受到了越来越多的关注。知识图谱在证券行业的应用很多,主要包括智能监管、智能客服、智能审核、智能投研、智能风控、智能营销等。

在智能监管场景中,可利用知识图谱查看企业及自然人之间的关联关系,并基于业务需求对图谱进行挖掘;在智能客服场景中,通过知识图谱智能化分析客户的提问,并在知识图谱上搜索精准答案并给出回答;在智能审核场景中,可利用知识图谱便捷地获取企业及自然人信息,进行合规审核,对不一致性进行验证;在智能投研场景中,通过知识图谱分析企业相关的上下游公司、供应商关系、竞争者关系、客户关系等,有利于投研人员作出决策;在智能风控场景中,可利用知识图谱对外部风险事件建模,分析风险事件对企业及自然人的影响;在智能营销场景中,通过知识图谱提炼出关联客户信息及营销线索,获得有效商机,利用关系网络进行营销。

知识图谱构建的重难点

知识图谱是一个庞大的知识工程,是对大数据的深层挖掘,在实施过程中需考虑诸多因素,其重点和难点如下:

1.数据的获取与处理

数据是知识图谱构建的基础,数据的质量和维度均对知识图谱的构建和应用造成影响。数据质量决定了知识图谱刻画得是否准确,数据维度决定了知识图谱刻画得是否完备。目前,知识图谱的数据质量有待提高且数据维度还不够。

历史数据对于上市公司监管等应用很有帮助,因此需要将历史数据引入知识图谱,在知识图谱的架构设计、数据存储、模型算法等方面进行特别处理。相比于只采用实时数据的知识图谱,考虑历史数据将会使知识图谱的复杂度更高。

知识图谱的数据源可能有多个,不同数据源可能存在数据质量良莠不齐、数据重复等问题,如不同数据源中存在同一自然人实体或者企业实体,因此,需要在同一框架规范下进行多源数据的整合、消歧等工作。

2.领域知识

知识图谱分为通用知识图谱和领域知识图谱,通用知识图谱包含了大量的现实世界中的常识性知识,覆盖面极广,领域知识图谱基于行业数据构建,通常有着严格而丰富的数据模式,对该领域知识的深度、知识准确性有着更高的要求。

领域知识是构建领域知识图谱不可或缺的环节,领域知识在知识图谱中的应用是多方面的:一是需求分析,知识图谱需要围绕具体业务去构建,不同的业务需求导致构建知识图谱的侧重点不同,选取的实体、关系及属性也不相同,因此需要不同的领域知识;二是本体构建,本体是知识图谱的知识表示基础,位于知识图谱的模式层,用于描述客观事物的概念和类别体系;三是基于知识图谱的应用,比如,资本系挖掘算法需要结合业务需求,不同的业务需求对资本系内上市公司的认定可能存在差异,具体的规则可能不同。

深交所知识图谱实践

为提高公司管理部门“科技监管”水平,立足于为上市公司监管提供数据支持服务,深交所自主研发了知识图谱一期工程项目,并于2018年7月上线。基于知识图谱,可以查询任意多个主体之间的关系网络,如企业与企业、企业与自然人、自然人与自然人之间的关系,并支持多个目标主体之间n度以内路径的自动探寻,可以辅助用户在多源异构的大数据中发现异常点。

证券期货业金融科技研究发展中心(深圳)(以下简称“金融科技中心”)是经证监会批准,由深交所建设运营,以服务行业为导向,聚焦金融科技创新发展的行业公共研究平台。为了更好地推进监管科技工程项目,深交所依托金融科技中心于2018年开展了《面向上市公司监管的知识图谱构建与应用研究》课题研究。本文对深交所知识图谱的内外部数据融合、本体构建及部分应用进行介绍。

1.内外部数据融合

知识图谱构建过程中需要对内部数据和外部数据进行融合,并考虑数据的时间维度。内外部数据融合包括数据选取与准备、数据预处理、实体对齐、数据聚合。实体对齐是数据融合中的关键技术,分为企业实体对齐和自然人实体对齐。

企业实体对齐可以通过名称、工商注册号、组织机构代码等进行精确对齐,也可以通过名称相似度、地址相似度等进行模糊对齐。相比于企业实体对齐,由于自然人名字同名现象普遍存在,自然人实体对齐更为困难。自然人的实体对齐分为精确对齐和模糊对齐。精确对齐除了基于证件号码外,还可以基于公司关联关系进行对齐,即两个有关联可达路径的公司含有多个同名自然人实体,则将这些自然人实体进行对齐。模糊对齐可以基于公司属性信息进行融合,即如果具有名称相似度、地址相似度或者电话号码相同的两个企业具有同名自然人实体,则将这些自然人实体进行对齐。在实体对齐中,可以采用多种相似度算法计算相似度,如加权编辑距离等,实体对齐中的阈值可以调节。

2.本体构建

本体是描述客观世界的抽象模型,以形式化方式对概念及其之间的关系给出明确的定义。本体的构建依赖领域知识,目前构建出的本体包括自然人、公司、行业、地域、概念板块、企业主营产品类型等。本体反映的概念更为抽象,通过本体,可以描述知识图谱的数据模式,并有效地发现知识图谱中的不同实体之间的隐含关联关系。

3.知识图谱在上市公司监管中的应用

知识图谱在上市公司监管中的应用很多,本文重点介绍基于知识图谱的资本系挖掘以及风险事件传导。

(1)资本系挖掘。资本系的说法源自于财经媒体对“一控多”现象的关注。“一控多”自1999年之后大量涌现,成为境内证券市场普遍存在的现象。基于股权等信息可以挖掘出上市公司所属资本系以及资本系核心的实际控制人等信息。

通过知识图谱,可以直观地展现上市公司与资本系核心及资本系内其他公司的关联路径,这些信息可以有效辅助日常监管、公司治理、上市公司风险排查等工作。同时,还可以结合具体的监管业务需求对资本系进行全面且多方位的解读。由于资本系的自动命名技术还有待提高,为了更好地结合业务需求,系统应支持手工配置资本系的名称。资本系结果评价对于资本系挖掘算法的改进非常有必要,但资本系结果评价也存在一些难点,比如,需要花费较多的时间来评价资本系挖掘算法。

(2)风险事件传导。知识图谱由大量的节点与边组成,风险事件可以通过节点与边在知识图谱中传导,研究基于知识图谱的风险事件传导模型算法、路径及关键节点可以有效地防范上市公司风险。风险事件传导分析离不开领域本体的支持,包括上市公司所在行业、地域、产品、概念等信息。这些信息有助于知识图谱中的实体泛化,进而更准确地分析风险事件的传导过程。风险事件传导需要考虑的因素很多,比如相同的持股比例对于上市公司和非上市公司的差异化影响、不同公司对于风险的承受不同能力、不同类型关系的权重设置、传导衰减因子计算等。

另外,产业链数据可以将知识图谱中的不同实体关联到一起,反映出企业之间的财务及业务关系,是风险事件传导分析的重要环节。通过风险事件传导分析,输出受影响的上市公司名单,可辅助上市公司风险排查。

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。