摘要:针对传统卷积神经网络模型在静态环境下人脸识别的过拟合问题,AlexNet网络的各隐层通过应用”Dropout”方法得以解决。但这个网络较复杂,计算量大,训练集通过验证集测试的准确率提升的太慢,人脸数据的损失值曲线和识别率曲线都存在振荡问题。因此本文结合Caffe深度学习框架中的AlexNet网络结构进行改进,利用梯度下降法对批量的图像数据进行特征提取器和分类器的训练。在原网络的基础上,删除一个全连接层,同时放弃使用LRN层,根据VGG网络的结构,用7×7和5×5的两个小卷积核替代原来的11×11的大卷积核,来弥补去掉的全连接层和LRN层,这样网络参数减小从而加快计算速度,人脸数据的损失值和识别率的振荡程度减小,从而达到平稳。

0 引言

人脸识别作为一种生物特征识别技术具有辽阔的应用[1] ,尤其集中体现在身份认证、安防监控和人机交互等方面。

常见的人脸识别算法包括基于特征脸(PCA)的方法[2]、基于线性分析(LDA)的方法[3]、基于局部二值模式(LBP)的方法[4]、基于神经网络(NN)[5]的方法等等。其中卷积神经网络(Convolutional Neural Network, CNN)模型中,其超参数通过传统的梯度下降法和自带的网络模型进行学习。AlexNet[6]网络主要突出在图像的分类上;R-CNN(Regions with CNN)[7]成功获得对目标检测区域的特征提取。图像的端到端语义分割在全卷积网络(Fully Convolutional Network,FCN)[8]上得到了广泛的应用,提高了传统的语义分割算法的准确性。AlexNet网络有8层,其中,conv层有5个,FC层有3个,FC8层也称为分类层,参数量大于60 M。分类层的输出具备1 000个输出的归一化指数函数回归模型。

本文设计了一种7层卷积神经网络模型结构,应用于ORL人脸数据库的人脸识别。7层卷积神经网络采用整流线性单元激活函数(以下称为ReLU)和固定学习速率。

1 卷积神经网络的设计

1.1 AlexNet在人脸识别领域的应用

Alexnet网络利用ReLU激活功能作用于每个卷积层和完全连接层,并且局部响应归一化层连接在第一个卷积层和第二个卷积层之后。卷积1层,卷积2层和卷积5层的输出上均与最大池化层相连接。AlexNet(后文称为原网络)的基本架构如图1所示。

本设计使用ORL人脸数据库的新卷积神经网络结构模型进行训练;对于训练过程中发生的过拟合问题,Hinton提出了“Dropout”方法,即在网络学习的时候以固定的(概率p(0≤p≤1),通常设置为0.5,再把输入层或者隐藏层的神经元输出设置为0,这个神经元没法连续正向传播和误差反向传播,但在测试时,p乘以输入层或者隐层的神经元输出作为该层的输出。由于网络中每个输入图像神经元被随机设置为0,因此需要要求图像中最基本的特征是由隐藏层神经元提取,采用“Dropout”解决过拟合问题。

1.2 AlexNet的改进

本文网络的模型结构如图2所示。

(1)用 7×7 和 5×5 的两个小卷积核替代原来的11×11的大卷积核,为了保证原结构maxpool1(第一最大池化层)的输出不发生变化,Conv1-1(第一卷积层的第一卷积核)、Conv1-2(第一卷积层的第二卷积核)个数保持不变,并对其进行补充操作。后面的模型结构图和原网络相同,原来的FC8层变为FC7层,具体参数如表1所示。

(2)在激活函数与池化层之间删除 LRN 层。

(3)本文网络模型减少了1层(FC7层),第一层变为两个小卷积模块形式。其中改进层具体参数变化如表2所示。

1.3 人脸图像的预处理

人脸原图片的尺寸是112×92,标准化变为256×256的人脸,就可以随机在标准化后的图片上裁剪一个227×227的图像来训练,并横向的进行翻转、平移等一系列的操作来拓展数据集大小。ORL人脸数据库的样例如图3所示。

对ORL数据库做以下处理:

(1)将数据库中的训练集、验证集、测试集的比例设置为3:1:1,然后再把ORL中图片标准化大小,如图4所示,经cvResize函数将原图112×92标准化256×256。

(2)将训练集、验证集、测试集的40个人分别分为40类制作标签,放到40个编号0~39的文件夹内。

(3)制作标签txt文件。

(4)转换lmdb格式的数据集。

(5)训练集均值文件。

至此,人脸图像的预处理结束。

2 网络的训练和测试

本文利用批量随机梯度下降的方式,准确率提升得更快。对于ORL人脸数据库原网络和本文网络的网络训练,最大迭代次数均为10 000,批处理图片大小分别为4个和8个,动量均为0.9,常数因子均为0.1(本实验由于最大迭代次数和步长设置相同,所以此参数可以忽略),初始权值均为0.0 005,步长均为10 000,初始学习速率均为0.0 001,均为训练1次测试一次,训练1 000次存储一个模型。每次训练网络,更新的参数都会遍历它的批处理量。更新公式为:

其中:wi 表示更新前的权值,wi+1 表示更新后的权值,表示动量,表示初始学习速率,L 表示步长, 表示第i 批图像Di 的误差对wi 偏导的平均值。

3 实验与结果分析

AlexNet网络和本文网络通过迭代次数找到最适合ORL人脸数据库的网络模型。本设计的测试集的识别率只是通过网络模型测试人脸数据的优劣性,最终的识别率是全部样本的识别率。同时通过比较各个集合的损失值得出网络模型在保留尽可能多的人脸信息的前提下保证其识别率的准确性。

3.1 卷积神经网络的人脸识别

AlexNet网络的迭代次数取为1 000~10 000),本文网络的迭代次数取为(1 000~10 000)用这些模型进行人脸识别的测试来比较它们的损失值和识别率。

图5表示出对应于ORL中的原网络和本文网络的迭代次数的训练集成本函数损失。

由图5可以看出本文网络只有在迭代2 000、3 000、3 500、4 000、4 500、4 800、9 400、9 600次的时候训练集损失的值要比改进前的网络高,其余的时候远远低于原网络,最后趋于零达到平稳。

图6显示于ORL中原网络和本文网络的迭代次数的验证集成本函数损失。

由图6可以看出验证集本文网络在迭代1 000次、2 200次、9 500次、9 700次的时候损失值比原网络损失值高,其余的时候均比原网络损失值低,最后趋于零达到平稳。

图7显示了对应于ORL中原网络和本文网络的迭代次数的测试集成本函数损失。

由图7可以看出本文网络下降的速度比原网络下降的快,在迭代5 000次之后,基本趋于稳定,虽然在迭代8 000~9 500次的时候损失值略高于原网络,但是原网络的损失值一直在上下震荡,最后本文网络的损失值收敛在0.1附近。

图8显示了ORL中原网络和本文网络的迭代次数样本集成本函数损失。

图8和图7的曲线类似,不同的是图8的样本集损失值一直处在原网络的下方,最后样本集的损失值也收敛在0.1附近。

图9显示了ORL人脸数据库中原网络和本文网络迭代次数训练集的准确率。

由图9可以看出本文网络验证集对训练集的准确率的上升速度比原网络快,并且在迭代6 000次之前都是稳步上升的,而迭代6 000次之后原网络上下强烈震荡,本文网络减小了震荡,在97.5%的时候趋于平稳。

图10显示了ORL人脸数据库原网络和本文网络迭代次数中每次迭代的测试集识别率。

由图10可以看出在迭代6 000次之前,原网络和本文网络对测试集的识别率均稳步上升,其中原网络识别率最高为97.5%,而本文网络识别率最高为98.75%。但在迭代6 000次之后原网络发生强烈震荡,本文网络也略微下降,在迭代8 000~9 200次的时候略低于原网络测试集的识别率,本文网络随后继续上升直到识别率为96.25%的时候趋于稳定。

图11显示了ORL原网络和本文网络迭代次数的样本集识别率。

图11和图10基本相似,不同的本文网络的样本集识别率几乎一直在原网络样本集识别率之上(除了迭代9 000~10 000次)。其中,原网络对样本集的最高识别率为98.75%,本文网络对样本集的最高识别率为99%。原网络和本文网络对全部样本的识别率分别在98.5%和98.75%达到平稳。

综上所述,本文网络损失曲线和识别率曲线要比原网络损失曲线和识别率曲线震荡减小趋于平稳,达到的实践效果更好。

测量对于相应的人脸数据库训练集和测试集的每个模型的正确识别率,结果如表3、表4所示。

由上述表格的数据得到,原网络最佳的网络模型AlexNet网络的_iter_9 000;本文最佳的网络模型本文网络的_iter_6 000;本文人脸的识别率是以测试集的识别率为准,本文网络的人脸识别率比原网络高1.25%,在一定程度内能提高识别率的收敛速度。

3.2 AlexNet网络的模型和本文网络的模型与其他算法的比较

传统人脸识别算法的识别率如表5所示。

AlexNet网络结构模型对ORL人脸数据库的识别率是97.5%,样本识别率是98.75%。而本文网络结构模型对ORL人脸数据库的识别率达到98.75%,样本识别率是99%。表6是本文设计的网络与传统算法在ORL人脸数据库识别率的对比。从中可以得出结论,本文所设计的网络对ORL人脸数据库中的识别率提高1.25%,样本识别率提升0.25%。

3.3 实验总结

本文提出了一个7层网络应用于ORL人脸数据库的人脸识别,提高了AlexNet网络中的超参数的批处理量,在迭代次数很小的时候就达到饱和程度,发现训练的收敛程度更快,验证的准确率更高。从训练集、验证集、测试集的损失曲线可以看出本文网络损失更少,并且训练出的模型测试人脸的识别率为98.75%(比原网络提高1.25%),所有样本的识别率可以达到99%(比原网络提高0.25%),人脸识别的准确率相对有所加强。同时对人脸数据的损失值和识别率曲线的振荡问题进行了改进,结果趋于稳定。

4 结语

随着深度学习的热潮和人工智能的推进,人脸识别的应用已经进入各行各业,而对人脸识别的准确性也将成为一个探究的课题。本文针对AlexNet网络方法的参数训练过程提出了新型网络算法,经试验证明有优良的性能,它逐层的准确度匹配程度也得以逐渐加快,从而达到识别结果精确。

参考文献:

[1]陈海霞,崔茜.基于Gabor小波和PCA的人脸识别[J] .东北师大学报(自然科学版),2014,46(04):77-80.

[2]Pedagadi S,Orwell J,Velastin S,et al.Local fisher discriminant analysis for pedestrian reidentification[C]//IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3318-3325.

[3]张燕昆,刘重庆.一种新颖的基于LDA的人脸识别方法(英文版)[J]. 红外与毫米波学报,2003,22(05):327-330.

[4]毛艺.基于深度神经网络的人脸识别算法研究[D].杭州:浙江大学.2017.

[5]陈耀丹,王连明.基于卷积神经网络的人脸识别方法[J].东北师大学报(自然科学版),2016,48(02):70-76.

[6]Krizhevsky A,Sutskever I,Hinton G E.Image Net classification with deep convolutional neural networks[C]/ / Proceedingsof Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1106-1114.

[7]莫宏伟,汪海波.基于Faster R-CNN 的人体行为检测研究[J].智能系统学报,2018,13(06):967–973.

[8]Girshick R, Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C] / / Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.

作者简介:

赵远东,沈阳工业大学 信息科学与工程学院,硕士研究生,主要研究方向为视觉伺服信息处理、深度学习、图像处理、人脸识别;

刘振宇,沈阳工业大学 信息科学与工程学院,博士,教授,博士研究生导师,主要研究方向为视觉伺服信息处理、图像处理与模式识别;

柯 丽,沈阳工业大学 电气工程学院,博士,教授,博士研究生导师,主要研究方向为生物医学成像、医学图像处理、生物特征识别;

陈香敏,沈阳工业大学 电气工程学院,博士研究生,讲师,主要研究方向为康复机器人,图像处理。

(本文选自《通信技术》2019年第三期)

声明:本文来自信息安全与通信保密杂志社,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。