Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation
(1) 总览
输入:
- 一段speech signal(speech = 音频 + 文本)
- 脸的网格
输出:
- 精确的面部口型同步,真实的脸部表情
研究动机:学术很少研究整个驱动过程中面部的真实表情同步
joint audio-text model:能捕获上下文信息,直接通过speech驱动脸部动画,实现同步
不同于从文本提取音素作为feature的方法,论文中通过更high-level的:上下文的文本作为feature,以驱动脸部动画
(2) 算法:

Real-Time Hair Filtering with Convolutional Neural Networks

(1) 总览
先用随机采样简单渲一张图片,然后将一个实时的auto-encoder,用来filter image,将有噪点的图进行细节补充
输入一个带噪点的图,还有头发的切线,深度等等信息,然后用CNN进行重建,输出无噪点图
输入:
- Color
- Specular
- Alpha
- Tangents(很重要的feature)
- Depth
Cross-Domain and Disentangled Face Manipulation with 3D Guidance

可编辑一些的面部属性(语义):
- Shape
- Expression
- Pose
- Illumination
- Albedo
语义可以理解为构成图片的一些基
Real-Time Relighting of Human Faces with a Low-Cost Setup
传统的通过后处理方式替换背景,会导致出现一些不存在的光,导致光的不合理性,所以需要重建光照,重新预测光照传播
对于重现光照,有两个大致方向
- 基于图像(IBL)
- 基于机器学习
(1) 总览
实时,轻量级:只用一个智能手机,在capture的时候修正一些瑕疵,达到真实感皮肤
只依赖于:
- 一个带闪光灯的手机
- a camera(另一台手机)
- 一个反射球
(2) 方法:

大概分成三个步骤:
- acquisition process
- building reflectance maps
- relighting
- 给出一张静态图片,一张environment map
- 相乘,再相加
reflectance maps构建的详细过程:
- 不超一分钟的acquisition process
- 人坐在中间看向camera
- 带闪光灯的手机绕着人转(绕一个半球)
- 闪光灯闪的频率可以低于camera的拍摄频率,这会导致一些dark frame (no-flash)
- 把dark frame抽取出来,用脸部追踪做成bright frame (flash)
- 利用内插值,把稀疏的flash frames做成relfectance maps
- 把3D模型调整到像某一帧,然后提取出normal map,为每一个光照方向计算自阴影
