face generation - LipSync3D - 《Paper Notes - 专利笔记》

谷歌-CVPR2021
LipSync3D: Data-Effificient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

LipSync3D：基于姿势和光照归一化的视频个性化3D语音人脸数据高效学习
输入音频和视频，预测出唇形同步。
个性化模型，数据量要求不高，有更高的视觉保真度，适合个人长演讲。
实验数据：three talking head datasets: GRID [10], TCD-TIMIT [16] and CREMA-D [21].
数据预处理：消除头部运动和光照变化的影响，并对面部几何和纹理进行归一化处理。训练和推理都在这个标准化空间中进行。
LipSync3D对这一领域研究工作最显著的贡献可能是其光照归一化算法（lighting normalization algorithm），该算法将训练和推断照明解耦。
研究人员称，LipSync3D在以前的工作中提供了三个主要创新: 将几何、光照、姿态和纹理分离到规范化空间中的离散数据流中; 一个易于训练的自回归纹理预测模型，可以生成时间上一致的视频合成; 以及通过人类评级和客观度量来增加真实感。
使用 GeForce GTX 1080，视频的示例训练时间从2-5分钟的视频所需3-5小时不等。

方法

姿势归一化：根据输入帧生成网格评估的人脸规范化顶点，然后生成相应的纹理图谱。

？这里是不是相当于2D转3D然后又转2D？

LipSync3D - 图2

光照归一化：

LipSync3D - 图3

在本节中描述了学习函数F的框架，该函数是从音频谱图域S到顶点域V和纹理图集域的联合映射。
1个编码器 + 3个解码器，将几何信息和纹理分离出来，不共用decoder。解耦合。
- audio encoder
- geometry decoder：映射到3D顶点。
- texture decoder：
- blendshapes decoder：To animate CGI characters。
Auto-regressive (AR) Texture Synthesis