摘要
本文从三个方面总结近期的多模态深度学习工作:
1、多模态表征的学习。核心是 embedding。 2、多模态信息的融合。 3、多模态的应用
Introduction
representation:深度学习的核心问题是从输入数据中学到表征。 增训预训练表征(zero-shot、few-shot)。
fusion:attention、bilinear pooling。
application:文本图片生成、VQA ….
representation
单模态的表征方法可以作为多模态表征的基石。
模态数据的缺失 :zero-shot learning
语言模型的预训练方法。
Visual representation
以CNN为基础发展出来的:AlexNet、VGGNet、ResNet。
选中区域的表征:物体识别,R-CNN 系列。
language representation
RNN、GRU
transformer based methods
RNN、BERT
Fusion
过早或者过晚融合,都会抑制模态内 、模态间 interaction
1、简单操作。 concat、加权和 2、attention。