摘要

本文从三个方面总结近期的多模态深度学习工作:

1、多模态表征的学习。核心是 embedding。 2、多模态信息的融合。 3、多模态的应用

Introduction

representation:深度学习的核心问题是从输入数据中学到表征。 增训预训练表征(zero-shot、few-shot)。
fusion:attention、bilinear pooling。
application:文本图片生成、VQA ….

representation

单模态的表征方法可以作为多模态表征的基石。
模态数据的缺失 :zero-shot learning
语言模型的预训练方法。

Visual representation

以CNN为基础发展出来的:AlexNet、VGGNet、ResNet。
选中区域的表征:物体识别,R-CNN 系列。

language representation

RNN、GRU

transformer based methods

RNN、BERT

Fusion

过早或者过晚融合,都会抑制模态内 、模态间 interaction

1、简单操作。 concat、加权和 2、attention。

参考

1、多模态深度学习综述:网络结构设计和模态融合方法汇总