出于业务的需要,一些行业机构将信息化布局在相互隔离、有边界管控的网络中。由于业务不能随网络隔离而完全切分,因此带来了分布在不同网络中的数据如何实现跨网融合应用的问题。

关于数据融合应用,没发现有什么公认的定义。广义而言,只要各数据源都能提供数据应用服务,来支撑同一业务,即可认为实现了数据融合应用。但真放到这样的角度,这个话题也就没什么可议了。我想,需要讨论的数据融合应用,它的基本特征应是在明确的业务目标下,提取、梳理、整合多种数据源中的相关数据,形成供分析应用的数据集合,通过统一的、集成的算法进行处理,支撑目标的实现。当各类数据源在同一网络或互联互通的网络中,要做到这样,看来也不见得是多难的事。并且,融合应用可繁可简、可深可浅。但如果各类体量足够大的数据源分布在物理隔离、安全保护等级不同、采用自定义协议交换数据的不同网络中,此事就没那么简单了。

产生跨网数据融合应用需求的基本前提是相互隔离的网络中所存的数据存在某些关联,业务应用不能舍去某个网络中的数据。但关联有强弱之分,比如在A网中涉及张三的数据是实名制登记的,在B网中涉及张三的数据是以网络ID身份记录的,如果能够确认实名与网络ID存在映射关系,则可确认A、B两网的数据是强关联的。这种强关联的特点之一是不管在相关网络上有没有筛选出张三的数据,都可以获得一个确定性的结论,即张三在相关网络所记录的事务中有(或没有)行为,因而将数据组合在一起,可以确切地获得所关心的人(事、物)的全貌。如果不能确认实名与网络ID的映射关系,但两个网络中的数据都有时空要素,能够确认A网中在某一时空范围内记录了一些数据,B网中在同样的时空范围内也可能会有数据记录,则两网的数据是弱关联的。这种弱关联的特点之一是即便在相关网络上按设定条件筛选出数据,并把数据组合在一起,仍然无法得出确定性结论,还需要进一步分析。关联强弱会影响跨网数据融合应用的策略选择,关联强度不同,采取的策略应有所不同。存在强关联时,通过数据汇聚,借助简便的算法就有可能获取需要的信息;存在弱关联时,即便将数据汇聚在一起,对来自不同网络的数据的筛选依然要通过关联要素(如时空范围)独立进行,这种情况下,以关联要素为媒介,将算法依据不同网络中的数据情况作适当切分也许是个好策略。

数据计算效率是跨网数据融合应用中要考虑的一个重要问题。因为“跨网”,最容易想到的提升计算效率的策略是将各网中的数据汇聚到一个网络中,但数据汇聚是否真有如此效果却很难说。从信息技术发展的情况看,计算能力的增强易于实现、发展很快,而数据汇聚所需的数据交换能力不仅涉及跨网络传输,还涉及数据存储、治理等,要大幅增强是很困难的。基本可以断言,在计算能力的保障下,以并行方式对每份数据作单独计算并交换结果的效率通常会高于处理若干份体量相当的大数据集的汇聚及计算的效率,因为前者的数据前置处理工作量、跨网数据交换量和计算量都会大大小于后者。考虑到目前各网络中支撑计算能力的技术架构向云架构转型并不困难,可以相信,快速增长的计算能力将足以满足对数据处理的效率要求。这就意味着数据汇聚不会是提升数据计算效率的关键举措,甚至不一定是正确举措。所以,采用什么样的策略去提高数据计算效率要综合评估,如我在《汇聚只是策略》一文中提到的,汇聚是有很高成本的,它只是一种策略,其它如增强各网络中的计算能力、减少跨网数据交换量、减少数据前置处理工作量、科学拆分算法等都是可选的策略。

应用场景设计仍然是个关键问题。要实现跨网数据融合应用,可供选择的策略很多,但最好的选择依据是应用场景。跨网数据融合应用之所以成为一个问题,在于物理安全隔离、自定义协议、数据交换成本、计算能力等给我们出了“跨网”的难题。所以要静下来想想通过跨网数据融合应用要达到什么目的,需投入的成本与要达到的目的是否相称。要实现既定的业务目标,需要什么样的数据、什么样的展现结果、什么样的处理时效,需要什么样的数据处理方式与业务算法,这些问题想好了,再去选择策略就比较有把握了。我在《场景为王》一文中提到,曾经想在我所在的行业业务范围内构造一个数据应用场景,来说明数据如果不汇聚,某些业务就无法开展或效率极低,但至今也没有想出这样的应用场景来,我的结论是,就目前能想得到的业务而言,数据汇聚或不汇聚会影响计算效率,但它不足以影响业务的正常开展。这样的思考对涉及面更宽的跨网数据融合应用而言是一样有用的。

如上所述,要较好地实现跨网数据融合应用,在业务目标规划、应用场景设定、数据组织、算法设计、技术能力建设等方面都有许多工作要做,在确定实现策略时应兼顾成本(不仅仅是资金投入)与效率的平衡。当然,“跨网”一词本身就让我们想到信息化布局以及技术体系的构建问题,也许要有更高的站位才能规划好跨网数据融合应用。

声明:本文来自网上行者的信息化杂议,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。