本综述主要探讨五类问题

1、Representation(表征)。处理模态间信息的互补与冗余;模态间数据的异构性。
2、Translation(转化、翻译)。模态间信息的转化,数据异构;
3、Alignment(校正、映射?)。不同模态的元素在空间性、结构性如何对应。
4、Fusion(融合)。如何融合多个模态的信息去做预测;
5、Co-Learning(联合学习)。知识迁移?利用其他模态数据帮助当前模态任务训练的更好。

应用

1、audio-visual speech recognition(AVSR):利用声音 和 图片 做语义识别。
2、multimedia content search:富媒体搜索,文本 + 图片 。
3、给图片生成文本描述。

多模态表示-multimodal representation

joint :不同模态数据映射到同一个空间。
coordinated:
image.png