文│ 重庆大学 重庆市公安局网络安全保卫总队 田庆宜 向勇

随着人工智能应用在社会生活各领域的广泛应用,人工智能应用可能会被利用犯罪工具直接实施犯罪,也可能会成为犯罪者所攻击的目标。

据媒体公开报道,2017年9月国内警方公布,破获全国首例利用人工智能技术窃取公民个人信息的案件,该犯罪团伙利用人工智能技术截获了 10 亿余组公民个人信息。因此从打击犯罪侦查取证的角度,有必要研究针对人工智能应用的取证方法。

与此同时,人工智能应用的取证和传统的信息系统的取证各项特性上存在较大差别,其应用输出结果并不确定,可根据训练、算法参数、环境等等因素而自动适应改变,导致传统信息系统取证方法难以照搬。因此,本文通过法律和信息技术的学科交叉研究,在国内现行法律体系下,探索通过对人工智能应用的法律维度和技术维度的分析,构建对人工智能应用的取证模型。

一、侦查取证面临的人工智能应用场景概述

人工智能作为目前的热点领域,在各个领域都在深入推进和广泛应用,然而对人工智能应用概念的内涵和外延也有不同的学术观点。Stuart Russell and Peter Norvig等学者在《人工智能:一种现代的方法》中将人工智能从功能角度定义了四个维度:像人一样思考, 像人一样行动, 合理地思考, 合理地行动。实务领域中,通常将人工智能可分为弱人工智能、强人工智能两类。其中,弱人工智能并不是真正地推理(Reasoning)和解决问题(Problem solving)的智能机器,这些机器只不过看起来像是智能的,但是并不真正拥有通用智能,也不会有自主意识,仅能进行某种特定类型的智能行为。强人工智能真正能推理和解决问题,具有知觉的,有自我意识,可以独立思考问题并制定解决问题的最优方案,有自己的价值观和世界观体系。强人工智能领域几乎没有任何进展。目前,实务领域的广泛应用实际为弱人工智能。因此,本文取证模型针对人工智能应用实际按学术观点为“弱人工智能”,可将其定义为人工智能应用是指可执行特定“智能”任务的系统,可实现问题推理、知识表示、规划、感知、机器学习、自然语言处理、创作等智能功能的物理实体机器人和软件自主系统。

司法机关的侦查人员关注的是人工智能应用实际落地的场景。2017年初Venture Scanner 将全球1485 家人工智能公司划分为13 个细分行业,包括深度学习/ 机器学习(通用)、深度学习/ 机器学习(应用)、自然语言处理、计算机视觉/ 图像识别(通用)、计算机视觉/ 图像识别(应用)、手势控制、虚拟私人助手、智能机器人、视频内容识别、内容感知计算、语音识别、推荐引擎、语音到语音翻译。其中,深度学习/机器学习(应用)分类以约436 家企业的数量遥遥领先,自然语言处理公司数量232家位列第二。

从目前网络犯罪场景来看,司法机关取证人员需要侦查取证的人工智能应用场景高危领域主要有内容制作及其传播、智能制造、智能金融三大领域。在内容制作与传播方面,人工智能应用在新闻内容采编与智能生成、人工智能驱动的娱乐业等得到广泛应用。目前,内容分发已经高度依赖人工智能算法。比如说,各类网络应用等已广泛使用的智能搜索、推荐系统、图像和视频内容理解与检索、语音和自然语言交互。据报道,通过用户画像算法为核心构建的计算广告领域,2017年中国互联网广告规模达到了3884亿元。在智能制造中,最典型的是现在正在普及的自动驾驶领域,该领域一共分为四级,其中第四级即可完全不需要人工干预,由智能自身完成公路行驶过程。在智能金融领域中,海量资金交易主要依托预设智能算法进行交易。

上述领域,对人工智能的滥用或者恶意攻击都可能造成极其严重的社会和经济影响。但是,人工智能算法其复杂开发环境和部署应用环境,导致传统的信息系统侦查取证方法不能适应此类环境的侦查取证,构建适应人工智能应用的特有的取证模型势在必行。

二、针对人工智能应用的取证流程模型构建

人工智能应用涉及算法众多,场景复杂,涉及的开发、部署及应用千变万化。由于人工智能本身的“智能”特点,导致其输出结果可根据训练、算法、参数、环境等因素而自动适应改变。单纯从电子数据技术角度进行构建取证模型已不能达到取证目的和效果,特别是取证获得的证据如何从法律关系上证明其相关方责任承担和因果关系面临极其复杂的情况。因此,本模型创新性引入法律维度,在开展针对人工智能应用取证前,主动前置先进行法律分析。针对人工智能应用的取证方法框架模型总体结构如图1所示。

该模型方法不同于传统信息系统取证的方法框架与程序,共分为取证方法的法律维度分析和技术维度分析两大模块或是两个阶层。第一阶层为法律维度分析,根据法律分析中刑法二阶层理论中证明责任主体责任和犯罪事实及其因果关系需要,利用法律分析指引取证技术证据收集,确定取证技术应用的目标和范围。第二阶层为技术分析维度,从信息技术维度确定需要取证的人工智能在案件的角色、搭建取证环境、确定取证的数据范围等等相关技术措施和步骤。

1.取证人工智能应用模型的法律维度分析

首先,明确人工智能应用的法律上的责任主体,在人工智能应用模式下,责任主体的确定需要进行细致分析。与传统商业产品开发往往需要实验室等基础设施投入不同,人工智能应用开发模式突出“开源”,注重开源与商业集中开发并重。各大科技信息公司主动开发人工智能基础库,提供开放接口、模块,鼓励大众开发应用。如谷歌公司免费发布TensorFlow神经网络计算开发工具包,微软公司的语音识别项目组成部分开发而成的CNTK。这种大众参与的开发模式使人工智能的开发不同以往,给法律归责要求的法律主体应承担责任的前提“可预见性”带来挑战。开源开发模式下,人工智能相关开发周期中各个部件有可能是匿名或者非匿名的群体参与。人工智能开发多个模块组合构成,模块各自独立开发,开发者很难确定其他使用者如何使用该模块。通常,一个人工智能应用涉及的相关方至少包括人工智能应用使用方、人工智能应用服务提供方、人工智能应用开发方和人工智能应用基础模块供应方几个方面。

其次,由于人工智能应用输出结果由于“智能”的不固定性,如果人工智能应用输出的结果引发了法律责任。但是该输出结果有可能是相关责任方积极追求的结果,也有可能是相关责任方的过失,也可能是算法本身导致的随机错误。因此法律维度分析的第二步骤就是在明确相关责任主体的基础上,通过收集人工智能应用的系统相关数据,来支撑上述法律推理。对人工智能应用使用方而言,重点是考察操作日志等否具备主观故意;人工智能应用服务提供方主要是通过产品说明书、维护开发文档进行分析;人工智能应用开发方主要分析产品设计、测试文档及关键代码段;人工智能应用基础模块供应方主要是通过对产品关键代码进行测试分析来完成。人工智能使用方对智能应用控制能力证明是通过分析案件场景数据日志、应用环境搭建和侦查实验来完成,其中最为疑难点是误差值判断-随机现象。

2. 取证人工智能应用模型的技术方法阶层

首先,明确涉案人工智能应用在案件中的角色,人工智能应用在案件中是作案工具还是案件的目标或者被侵害方,如果是作案工具,则取证任务为对其人工智能应用的功能进行检验鉴定;如果是案件的目标或为被侵害方,则取证任务较为复杂。需要根据案件侦查取证的目标,为其输出案件相关结果寻找原因,对其错误输出结果进行技术上的原因分析。

其次,建立取证任务清单。从取证人员视野上看,包括系统功能、操作权限、登陆操作日志、使用说明等几个方面。从架构视野上看,人工智能的分为开发文档、系统架构、系统部署方式、数据库(位置、数据字典)、运维日志数据、核心服务器镜像等几个方面,特别注意的是应当收集训练数据集(训练集和验证集)。

最后,搭建取证环境,包括关键基础环境和仿真环境搭建。其中,关键基础环境亦可称为海量日志分析环境,包括Awk、grep等脚本、AWStats开源分析工具以及清洗后导入数据库处理。仿真环境搭建包括vsphere  系列进行仿真以及Docker系列进行仿真。随后,是取证分析。对于工具类,主要证明其功能、证明其是否用于犯罪;对于被攻击类通常使用侦查实验方式,可以围绕下述三条途径进行取证分析:故意、过失(使用过失、开发过失)、意外事件(不可抗力)。可能标准包括如果事件可以反复重现,可排除意外;如果事件不可反复重现,考虑意外事件。

需要强调的是,对于技术分析获取取证结果,结论应明确结果获得的相关特定条件。人工智能结果生成内因和外因等相关因素,内因包括框架、算法、参数等,外因分为训练数据、该结果的输入等方面。同时,要对算法学习过程进行分类处理,通常包括对规则等可解释算法进行说明,以及对神经网络等不可解释算法通过黑箱方式进行说明。上述的各种因素,都可能导致特定的人工智能应用即使输入数据相同,也可能输出甚至大相径庭的结果。因此,当取证人员给出取证检验结果时,应特别注意该结果仅在该人工智能应用在给定的条件下成立,而不能无条件推广。

三、取证人工智能的取证流程模型实战案例

本文探索将按二阶层模型应用于目前实战,如在网络黑产领域,人工智能应用作为犯罪工具案件主要是利用神经网络进行图像识别,突破密码安全策略。某地在侦破一起冒充亲友在QQ上进行网络诈骗案件时,发现该诈骗团伙使用社工库+打码平台突破受害者亲友账号进行冒充诈骗,社工库+打码平台为一黑产团伙所提供。为批量晒密撞库人员提供图片验证码自动识别服务打码平台。晒密人员利用平台和与之对接的晒密软件,把大批账号和密码进行自动匹配,并突破互联网公司的验证码安全防护策略,获取网站后台数据和公民个人信息。“晒密人员”进行批量撞库后,获得包括QQ账号和密码、QQ邮箱和密码、QQ好友相关信息等在内的大量公民个人信息数据。分类销售给其他下游互联网诈骗类等团伙。

黑产团伙通常会使用自动识别验证码,来减低人力成本。黑产团伙使用的主流人工智能应用是采用基于Tensorflow的使用Alexnet网络进行训练搭建卷积神经网络训练分类器进行验证码识别,识别过程如图2、3所示。

将上述模型应用于本案。包括法律分析和技术分析两个维度,具体步骤如下:

第一步,明确人工智能应用为作案工具。第二步,证明其具备犯罪所需功能并实际应用其犯罪行为。第三步,侦查实验及功能鉴定,可以利用vmware导入嫌疑人机器镜像进行仿真,运行程序验证测试其功能。第四步,远程勘验对网上打码平台及后台数据进行固定。第五步,现场勘验、电子数据检查等固定嫌疑人应用该工具的上下游犯罪。

通过上述二阶层模型的指引,取证部门完成了对涉案人工智能应用的取证,针对涉案人工智能应用取证的检验鉴定结果得到了法庭的采信。

本文针对取证人员面临的人工智能应用场景,结合人工智能应用作为犯罪工具和人工智能应用本身可能被攻击实际案例,创新性构建了针对人工智能应用法律维度分析和技术维度分析的取证二阶层模型。该模型可较为有效指引一线取证实务部门面临人工智能应用复杂场景选择取证途径和步骤,并能有效地将技术数据转化为支撑法律推理和论证的证据。随着人工智能技术的快速发展,未来有人工智能应用涉案的案件取证还会面临更多挑战。特别是人工智能处理海量数据,对人工智能产生法律影响的结果如何分析区别正常误差及错误结果,比如有可能案发时是训练产生的误差,待取证时由于模型已进行过持续的训练,同样输入时产生的正确结果,将成为未来技术分析与法庭辩论的难点与焦点,值得进一步深入研究与探索,推动模型的进一步完善。

(本文刊登于《中国信息安全》杂志2019年第5期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。