- Transformer 架构
- 建模全局信息,和全连接 MLP 之类的有一定相似性
- 相对于 CNN 而言
- 多模态的融合
- 融合语音、文本、图像等信息来完成目标
- 主流三种融合方式:early fusion, middle fusion, late fusion
- Transformer + CNN 融合
- Swin-Transformer(全局和局部信息的融合)
- 大数据集上进行无监督(自监督)训练,然后迁移到下游任务
- CLIP,BERT,MAE 等等
- 采用对比学习,自回归,掩膜等方式构造 sample 和 label
- how to train really large models on many gpus