摘要

2020年新冠疫情在全球突然爆发,严重地影响了我们的正常生活。佩戴口罩成为了阻止疫情蔓延的重要方法,口罩逐渐成为了我们日常生活中的必须品。然而口罩的大量使用为那些以人脸为基础的算法(如人脸识别、视频安防等)带来了严重的挑战。

人脸对齐作为众多人脸分析任务的基础,性能也受到了严重的影响。为了提升人脸对齐模型在口罩等遮挡场景中的鲁棒性,在本文中我们提出了一种高效的口罩人脸对齐模型,命名为 MaskFAN。

在模型中我们使用了深度可分离卷积和分组卷积来构建了一个轻量化的特征提取网络。为了提升模型对遮挡数据的鲁棒性,我们设计了一种全新的 loss 函数用于辅助模型的训练。此外,我们还探索了3D 数据增广方法来生成大量带有口罩的人脸图片。实验结果显示,我们所提出的方法在模型体积和计算量都很小的情况下,性能明显优于现有的方法。

方法

轻量化模型

高性能口罩人脸对齐模型 - 图1

深度可分离卷积是一种常用的降低模型参数量和计算量的卷积操作,在模型轻量化设计中被广泛使用。分组卷积起源于 AlexNet,用来将深度学习模型拆分,并使其可以在多个 GPUs 中训练;目前分组卷积主要用来降低模型的参数量。

MaskFAN使用深度可分离卷积和分组卷积来构建一个适用于遮挡场景、高效的特征提取结构。在设计的模型中,将分组卷积的 Group 数设定为模型的 Channel 数。

此外MaskFAN还将 Receptive Field Block 模块引入到设计的特征提取结构中来增强模型的信息建模能力。

增强型Wing Loss函数

受到 WingLoss 的启发,在遮挡人脸对齐领域中,我们需要使模型更加关注于那些未被遮挡的区域。WingLoss 虽然取得了较好的检测性能,但是在训练过程中有可能出现梯度为零的情况,影响模型稳定性和收敛速度。

为了解决上述的问题,我们提出了一种增强型的 WingLoss (E-Wing)。该方法在误差较小地位置扩大梯度,在误差较大地位置使用固定梯度。因此,可以迫使模型将更多地关注那些小误差点。

数据增广

提出基于3DMM 和生成对抗网络提出了一种数据增强模模块,该模块可以保证人脸相对位置不发生任何改变的情况下,生成大量带有口罩的图片。

高性能口罩人脸对齐模型 - 图2

在人脸对齐领域中,正面的人脸图片的数量远多于测量图像的数量。因此,这种数据不平衡问题有可能会导致模型对正面人脸严重过拟合。

为了缓解这一现象,使用了一种数据平衡策略;该策略首先计算出人脸朝向的一组欧拉角(patch、yaw、roll),然后根据角度的分布对那些数量较少的图片进行旋转、镜像等多种增广。

实验

数据集

为了证明本位所提出方法的性能,在 FLL2021数据集上进行了对比实验。FLL2021是一个最近发布的口罩人脸对齐的数据集,该数据集共包含24,386张图片,每张图片中均表述了106个关键点;数据集覆盖了大姿态、夸张表情等多中不同场景。实验选择其中的18,384张图片作为训练集,2,038张图像作为测试集。

评价指标

  • Normalized Mean Error (NME):NME 是一中在人脸对齐任务中广泛使用的评测指标
  • Failure Rate (FR):FR 于 NME 类似,用来表征算法的性能,实验中将 FR 的阈值设定为0.08

结果

将所提出的 MaskFAN 于常用的人脸对齐模型在 FLL2021数据集上进行实验,并分析结果。由于不同方法的输入图像的分辨率不同,为了公平对比,我们展示了两组对比结果,表1中我们使用256x256的图像作为输入;表2中我们使用128x128的图像作为输入。

高性能口罩人脸对齐模型 - 图3