• Transformer 架构
      • 建模全局信息,和全连接 MLP 之类的有一定相似性
      • 相对于 CNN 而言
    • 多模态的融合
      • 融合语音、文本、图像等信息来完成目标
      • 主流三种融合方式:early fusion, middle fusion, late fusion
    • Transformer + CNN 融合
      • Swin-Transformer(全局和局部信息的融合)
    • 大数据集上进行无监督(自监督)训练,然后迁移到下游任务