（机器学习）I3D2022数字人论文整理 - 《机器学习》

Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation

输入：

输出：

研究动机：学术很少研究整个驱动过程中面部的真实表情同步

joint audio-text model：能捕获上下文信息，直接通过speech驱动脸部动画，实现同步

不同于从文本提取音素作为feature的方法，论文中通过更high-level的：上下文的文本作为feature，以驱动脸部动画

（机器学习）I3D2022数字人论文整理 - 图1

（机器学习）I3D2022数字人论文整理 - 图2

先用随机采样简单渲一张图片，然后将一个实时的auto-encoder，用来filter image，将有噪点的图进行细节补充

输入一个带噪点的图，还有头发的切线，深度等等信息，然后用CNN进行重建，输出无噪点图

输入：

（机器学习）I3D2022数字人论文整理 - 图3

可编辑一些的面部属性（语义）：

语义可以理解为构成图片的一些基

传统的通过后处理方式替换背景，会导致出现一些不存在的光，导致光的不合理性，所以需要重建光照，重新预测光照传播

对于重现光照，有两个大致方向

实时，轻量级：只用一个智能手机，在capture的时候修正一些瑕疵，达到真实感皮肤

只依赖于：

（机器学习）I3D2022数字人论文整理 - 图4

大概分成三个步骤：

reflectance maps构建的详细过程：

不超一分钟的acquisition process
人坐在中间看向camera
带闪光灯的手机绕着人转（绕一个半球）
- 闪光灯闪的频率可以低于camera的拍摄频率，这会导致一些dark frame （no-flash）
- 把dark frame抽取出来，用脸部追踪做成bright frame (flash)
利用内插值，把稀疏的flash frames做成relfectance maps
把3D模型调整到像某一帧，然后提取出normal map，为每一个光照方向计算自阴影