1 人脸表情识别(参考链接)
人脸表情识别(facial expression recognition, FER)是人脸属性识别技术中的一个重要组成部分,在人机交互、安全控制、直播娱乐、自动驾驶等领域都非常具有应用价值。
1.1 JAFFE (1998)
这是比较小和老的数据库。该数据库是由10位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有213张图像,10个人,全部都是女性,每个人做出7种表情,这7种表情分别是:sad, happy, angry, disgust, surprise, fear, neutral,每组大概20张样图。[链接](https://link.zhihu.com/?target=https%3A//zenodo.org/record/3451524%23.XrZwXkszaUk)
1.2 KDEF与AKDEF(1998)
这个数据集最初是被开发用于心理和医学研究目的。它主要用于知觉,注意,情绪,记忆等实验。在创建数据集的过程中,特意使用比较均匀,柔和的光照,被采集者身穿统一的T恤颜色。这个数据集,包含70个人,35个男性,35个女性,年龄在20至30岁之间。没有胡须,耳环或眼镜,且没有明显的化妆。7种不同的表情,每个表情有5个角度。总共4900张彩色图,尺寸为562*762像素。[链接](https://link.zhihu.com/?target=https%3A//www.emotionlab.se/kdef/)
1.3 GENKI(2009)
GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片拥有不同的尺度大小,姿势,光照变化,头部姿态,可专门用于做笑脸识别。这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。链接
1.4 RaFD(2010)
该数据集是Radboud大学Nijmegen行为科学研究所整理的,这是一个高质量的脸部数据库,总共包含67个模特,其中20名白人男性成年人,19名白人女性成年人,4个白人男孩,6个白人女孩,18名摩洛哥男性成年人。总共8040张图,包含8种表情,即愤怒,厌恶,恐惧,快乐,悲伤,惊奇,蔑视和中立。每一个表情,包含3个不同的注视方向,且使用5个相机从不同的角度同时拍摄的。[链接](https://link.zhihu.com/?target=http%3A//www.socsci.ru.nl%3A8180/RaFD2/RaFD%3Fp%3Dmain)
1.5 CK(2010)
这个数据库是在Cohn-Kanade Dataset的基础上扩展来的,它包含137个人的不同人脸表情视频帧。这个数据库比起JAFFE要大的多。而且也可以免费获取,包含表情的标注和基本动作单元的标注。[链接](https://link.zhihu.com/?target=https%3A//www.pitt.edu/~emotion/ck-spread.htm)
1.6 Fer2013(2013)
该数据集包含共26190张48*48灰度图,图片的分辨率比较低,共6种表情。分别为0 anger生气、1 disgust 厌恶、2 fear 恐惧、3 happy 开心、4 sad 伤心、5 surprised 惊讶、6 normal 中性。[链接](https://link.zhihu.com/?target=https%3A//www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data)
1.7 RAF(2017)
包含总共29672 张图片,其中7个基本表情和12 个复合表情,而且每张图还提供了5个精确的人脸关键点,年龄范围和性别标注。[链接](https://link.zhihu.com/?target=http%3A//www.whdeng.cn/RAF/model1.html)
1.8 EmotionNet(2017)
共950,000张图,其中包含基本表情,复合表情,以及表情单元的标注。[链接](https://link.zhihu.com/?target=http%3A//cbcsl.ece.ohio-state.edu/EmotionNetChallenge/)<br />表情识别目前的关注点已经从实验室环境下转移到具有挑战性的真实场景条件下,研究者们开始利用深度学习技术来解决如光照变化、遮挡、非正面头部姿势等问题,仍然有很多的问题需要解决。<br /> 另一方面,尽管目前表情识别技术被广泛研究,但是我们所定义的表情只涵盖了特定种类的一小部分,尤其是面部表情,而实际上人类还有很多其他的表情。表情的研究相对于颜值年龄等要难得多,应用也要广泛的多,相信这几年会不断出现有意思的应用。
2 AU强度估计
2.1 DISFA
丹佛自发面部动作强度数据库(Denver Intensity of Spontaneous Facial Action Database)是一个非姿势面部表情数据库,为那些对开发自动动作单元检测的计算机算法和由FACS描述的强度感兴趣的人提供。这个数据库包含27个不同种族的成人受试者(12名女性和15名男性)的立体视频。采用PtGrey高分辨率立体成像系统(1024×768)采集图像。所有视频帧的AU 's(0-5标度)强度由两位FACS专家手工评分。该数据库还包括了数据库中每张图像的66个面部地标点。关于这个数据库的更多描述可以在我们发表在IEEE Transactions on Affective Computing的论文中找到。该数据库可用于研究目的的分发。请填写DISFA协议表格,只要求DISFA,并将其发送给Mahoor博士(mmahoor@du.edu)。如果您需要扩展DISFA (DISFA+),则需要一个单独的协议。[参考链接](http://mohammadmahoor.com/disfa/)<br /> 研究人员用立体摄像机拍摄了27名年轻人的视频,让他们观看旨在激发自发情绪表达的视频片段。根据面部动作单元编码系统,对每个视频帧手工编码面部动作单元的存在、缺失和强度。为了满足公众对带有良好标签的视频语料库的需求,我们收集了丹佛自发面部动作强度(DISFA)数据库。<br /> 包含6点顺序尺度上的每帧AU强度标注(DISFA 12)。此外,我们进行了受试者独立验证:DISFA(3次折叠:18列/9个测试对象)。
2.2 DISFA+
Extended Denver Intensity of Spontaneous Facial Action Database扩展丹佛自发面部动作强度数据库(Extended Denver Intensity of Spontaneous Facial Action Database)扩展DISFA (DISFA+)具有以下特性:1)它包含同一组个体的一组大的姿势和非姿势的面部表情数据;2)提供12个FACS面部动作的5级强度的基于框架的人工标注;3)它提供元数据(即,除了每个个体关于每个姿势面部表情的自我报告之外,还有面部地标点)。更多关于DISFA+的描述可以在我们的论文中找到,在CVPRW[16]处[pdf]。该数据集适用于那些想要研究姿势和非姿势动作单元差异和面部表情动态的人(见图1)。该数据库可用于研究目的的分发。请填写DISFA+协议表格,只要求DISFA+,并将其发送给Mahoor博士(mmahoor@du.edu)。
2.3 FERA 2015挑战赛数据
**FERA 2015挑战赛**的培训、开发和测试数据来自两个数据库:**BP4D-Spontaneous**(Spontaneous 自发的)数据库[24]和**SEMAINE**数据库<br /> 包含6点顺序尺度上的每帧AU强度标注(FERA2015 6 AUs)。此外,我们进行了受试者独立验证:FERA2015(2次折叠:21列/ 20个测试对象)。<br />补:**BP4D数据库**<br /> BP4D数据库的训练和测试分区都包含了年轻人对情绪激发任务的反应的视频数据。
2.3.1 BP4D-Spontaneous数据库
因为姿势和非姿势(又名“自发的”)3D面部表情在几个维度上不同,包括复杂性和时间,需要有良好注解的3D视频的非姿势面部行为。我们提出了一个新开发的3D视频数据库的自发面部表情在一个不同的群体的年轻人。有效的情绪诱导被用于激发情绪表达和副语言交际。利用面部动作编码系统,获得面部动作的帧级地面真值。面部特征在2D和3D领域都被追踪,使用的方法有针对个人的方法,也有通用的方法。该工作促进了对细微面部表情的三维时空特征的探索,更好地理解了面部动作单元中姿态和运动动力学之间的关系,并对自然发生的面部动作有了更深的理解。
该数据库包括41名参与者(23名女性,18名男性)。他们年龄18-29岁;11名亚裔,6名非洲裔,4名西班牙裔,20名欧美裔。为了有效地激发参与者的情绪,设计了一种情绪激发方案。八个任务涵盖了一个面试过程和一系列的活动,以引出八种情绪。
数据库由参与者组成。每个参与者与8个任务相关联。对于每个任务,都有3D和2D的视频。此外,元数据还包括手动标注的动作单元(FACS AU)、自动跟踪的头部姿势和2D/3D面部地标。数据库的大小约为2.6TB(不压缩)。
BP4D数据库的训练和测试分区都包含了年轻人对情绪激发任务的反应的视频数据。
BP4D的训练部分选自BP4D-Original,测试部分选自BP4D-Expanded。下面我们将把它们称为BP4D训练和BP4D测试。
1)BP4D-Train数据集包括41名参与者(56.1%女性,49.1%白人,年龄在18-29岁)的数字视频。这些人是从宾汉姆顿大学的心理学系和计算机科学系以及工程学院招募来的。所有参与者都对程序和允许使用他们的数据给予了知情同意。
2)BP4D-Test数据集包括20名参与者的数字视频,他们的人口统计特征与BP4D-Original数据相似。这些个体经历了与BP4D-Train数据集相似的招募、情绪激发和视频录制过程。这些数据集的主要区别在于扩展数据集还收集了参与者的生理数据和热图像。
2.3.2 SEMAINE数据库
数据来源链接:[http://semaine-db.eu](http://semaine-db.eu)。<br /> SEMAINE视频数据集包含了捕捉人与操作员之间的视听互动的自发数据,操作员扮演的角色有四个个:Poppy(快乐)、Obadiah(阴郁)、Spike(愤怒)和Prudence(务实)。视听序列以25帧/秒(352 × 288像素)的视频速率记录。该数据集由人与扮演代理(敏感人工代理)角色的操作员之间的视听交互组成。SEMAINE的视频剪辑被标注了一些认知状态,如一致、感兴趣、确定、专注和深思,并进行了连续评级(在[1,-1]范围内),其中-1表示最负面的评级(即:完全没有集中),+1表示最高(最集中)。在Solid SAL场景中使用了24个记录会话。录音由用户和操作员共同完成,通常每个录音环节有4个字符交互,总共提供95个字符交互和190个视频剪辑。
2.4 FERA 2017挑战赛数据
2.4.1 BP4D-Spontaneous数据库(同2.3.1)
训练数据。
2.4.2 BD4D+(Multimodal Spontaneous Emotion database )
验证、测试数据。<br /> **BP4D+数据库**是由BP4D数据库扩展而来的多模态自发情绪语库(Multimodal Spontaneous Emotion Corpus, MMSE),包含多模态数据集,包括同步的3D、2D、热、生理数据序列(如心率、血压、皮肤电导(EDA)和呼吸频率),以及元数据(面部特征和FACS代码)。<br /> 研究对象140人,男性58人,女性82人,年龄18-66岁。种族/种族祖先包括黑人、白人、亚洲人(包括东亚和中东亚洲人)、西班牙裔/拉丁裔,以及其他(如美洲原住民)。数据库中包含140个受试者和每个受试者10个任务(情感),为研究社区生成了超过10TB的高质量数据。