谷歌-CVPR2021
LipSync3D: Data-Effificient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

  • LipSync3D:基于姿势和光照归一化的视频个性化3D语音人脸数据高效学习
  • 输入音频和视频,预测出唇形同步。
  • 个性化模型,数据量要求不高,有更高的视觉保真度,适合个人长演讲。
  • 实验数据:three talking head datasets: GRID [10], TCD-TIMIT [16] and CREMA-D [21].
  • 数据预处理:消除头部运动和光照变化的影响,并对面部几何和纹理进行归一化处理。训练和推理都在这个标准化空间中进行。
  • LipSync3D对这一领域研究工作最显著的贡献可能是其光照归一化算法(lighting normalization algorithm),该算法将训练和推断照明解耦。
    LipSync3D - 图1
  • 研究人员称,LipSync3D在以前的工作中提供了三个主要创新: 将几何、光照、姿态和纹理分离到规范化空间中的离散数据流中; 一个易于训练的自回归纹理预测模型,可以生成时间上一致的视频合成; 以及通过人类评级和客观度量来增加真实感。
  • 使用 GeForce GTX 1080,视频的示例训练时间从2-5分钟的视频所需3-5小时不等。

方法

1. 训练数据归一化

姿势归一化:根据输入帧生成网格评估的人脸规范化顶点,然后生成相应的纹理图谱。

? 这里是不是相当于2D转3D然后又转2D?

LipSync3D - 图2

光照归一化:

LipSync3D - 图3

2. 联合预测模型和训练pipeline

  • 在本节中描述了学习函数F的框架,该函数是从音频谱图域S到顶点域V和纹理图集域的联合映射。
  • 1个编码器 + 3个解码器,将几何信息和纹理分离出来,不共用decoder。解耦合。

    • audio encoder
    • geometry decoder:映射到3D顶点。
    • texture decoder:
    • blendshapes decoder:To animate CGI characters。
  • Auto-regressive (AR) Texture Synthesis
    LipSync3D - 图4

Try 自回归预测:增强模型的时间稳定性。没有AR,沉默时唇形有张开,加了AR就没有张开的帧了。

  • for temporally smooth video synthesis.
  • Training by “Teacher Forcing”[1]:不是使用前面的预测atlas,而是用ground truth。
    LipSync3D - 图5

3. 推理和合成

  • Textured 3D mesh
  • Talking head video synthesis
  • Cartoon rendering
  • CGI Characters
    LipSync3D - 图6

合成:预测音频对应的3D人脸,与视频帧人脸对齐后进行融合。

LipSync3D - 图7

结果

在官方演示视频 LipSync3D: Personalized 3D Talking Faces from Video using Pose and Lighting Normalization - YouTube 中可以看到,

  • 如果没有光照归一化,在复杂光照条件下(黑暗、单一光源+人物转向)唇部出现伪影、模糊等不真实现象。

  • 2:52有2个与 wav2lip 进行对比的片段。

  • 除了输入音频的唇形同步,本模型还可以只输入文字text to video、人物CGI头像。应用场景:游戏和VR。

LipSync3D - 图8LipSync3D - 图9

  • 4:20展示了视频翻译,有翻译成中文的,看着有些字的唇形不是很对。英文效果挺好的。

[1] A Learning Algorithm for Continually Running Fully Recurrent Neural Networks | Neural Computation | MIT Press