Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation

(1) 总览

输入:

  • 一段speech signal(speech = 音频 + 文本)
  • 脸的网格

输出:

  • 精确的面部口型同步,真实的脸部表情

研究动机:学术很少研究整个驱动过程中面部的真实表情同步

joint audio-text model:能捕获上下文信息,直接通过speech驱动脸部动画,实现同步

不同于从文本提取音素作为feature的方法,论文中通过更high-level的:上下文的文本作为feature,以驱动脸部动画

(2) 算法:

(机器学习)I3D2022数字人论文整理 - 图1

Real-Time Hair Filtering with Convolutional Neural Networks

(机器学习)I3D2022数字人论文整理 - 图2

(1) 总览

先用随机采样简单渲一张图片,然后将一个实时的auto-encoder,用来filter image,将有噪点的图进行细节补充

输入一个带噪点的图,还有头发的切线,深度等等信息,然后用CNN进行重建,输出无噪点图

输入:

  • Color
  • Specular
  • Alpha
  • Tangents(很重要的feature)
  • Depth

Cross-Domain and Disentangled Face Manipulation with 3D Guidance

(机器学习)I3D2022数字人论文整理 - 图3

可编辑一些的面部属性(语义):

  • Shape
  • Expression
  • Pose
  • Illumination
  • Albedo

语义可以理解为构成图片的一些基

Real-Time Relighting of Human Faces with a Low-Cost Setup

传统的通过后处理方式替换背景,会导致出现一些不存在的光,导致光的不合理性,所以需要重建光照,重新预测光照传播

对于重现光照,有两个大致方向

  • 基于图像(IBL)
  • 基于机器学习

(1) 总览

实时轻量级:只用一个智能手机,在capture的时候修正一些瑕疵,达到真实感皮肤

只依赖于:

  • 一个带闪光灯的手机
  • a camera(另一台手机)
  • 一个反射球

(2) 方法:

(机器学习)I3D2022数字人论文整理 - 图4

大概分成三个步骤:

  • acquisition process
  • building reflectance maps
  • relighting
    • 给出一张静态图片,一张environment map
    • 相乘,再相加

reflectance maps构建的详细过程:

  • 不超一分钟的acquisition process
  • 人坐在中间看向camera
  • 带闪光灯的手机绕着人转(绕一个半球)
    • 闪光灯闪的频率可以低于camera的拍摄频率,这会导致一些dark frame (no-flash)
    • 把dark frame抽取出来,用脸部追踪做成bright frame (flash)
  • 利用内插值,把稀疏的flash frames做成relfectance maps
  • 把3D模型调整到像某一帧,然后提取出normal map,为每一个光照方向计算自阴影