场景:图像多标签任务

本文提出了一个分类Transformer(C-Tran),用于多标签图像分类。其利用Transformer的Encoder结构去探索视觉特征和标签之间的复杂依赖。

模型结构

image.png
在该模型中,其将特征和label都作为Encoder的输入。然后利用Encoder输出的label表征通过一层的线性层得到最终的标签预测值。

对于训练过程,这里采用了label mask training。