论文拆解 计算机视觉 自然语言处理

从TransForm 到 MetaFormer

Transformer 在计算机视觉任务中显示出巨大的潜力。一个共同的信念是他们基于注意力的token mixer模块对他们的能力贡献最大。然而,最近的工作表明,transformers 中基于注意力的模块可以被空间 MLP 取代,并且结果模型仍然表现得相当好。

MetaFormer is Actually What You Need for Vision - 图1

TransFormer示意图

Encoder由两个部件组成。一个是Attention模块,用于在token之间混合信息,我们称之为token mixer。另一个组件包含其余模块,如Channel MLP和剩余连接。最近的一些方法 探索了 MetaFormer 架构中的其他类型的token mixer,并展示了令人鼓舞的性能。有人用傅立叶变换代替了Attention,仍然达到了普通变换器的 97% 左右的准确率。 将所有这些结果放在一起,似乎只要模型采用 MetaFormer 作为通用架构,就可以获得可喜的结果。 因此,我们假设与特定的token mixer相比,MetaFormer 对模型实现竞争性能更为重要。

MetaFormer is Actually What You Need for Vision - 图2

通用模块示意图

Token mixer详解

MetaFormer is Actually What You Need for Vision - 图3

MetaFormer is Actually What You Need for Vision - 图4

MetaFormer is Actually What You Need for Vision - 图5

I:输入

Z:本层输出

Norm:归一化函数

σ:非线性激活函数

PoolFormer

从Transformer的介绍开始,许多工作都非常重视Attention,并着重于设计各种基于注意的token mixer组件。相比之下,这些作品很少关注一般的结构,即MetaFormer。

在这项工作中,我们认为,这种MetaFormer通用架构主要有助于近期transformer和MLP类模型的成功。为了证明这一点,我们特意使用了一个非常简单的操作符pooling作为token mixer。Pooling没有可学习的参数,它只是使每个token平均聚合其附近的token特征。

MetaFormer is Actually What You Need for Vision - 图6

MetaFormer is Actually What You Need for Vision - 图7

MetaFormer is Actually What You Need for Vision - 图8

Avgpooling 图解

MetaFormer is Actually What You Need for Vision - 图9

PoolFormer结构

实验结果

例如,在 ImageNet-1K 图像分类上,PoolFormer 实现了 82.1% 的 top-1 准确率,以 35%/52% 的参数减少了 0.3%/1.1% 的准确率,超过了经过良好调整的视觉Transformer/MLP-like 基线 DeiT-B/ResMLP-B24 MAC 减少 48%/60%。

MetaFormer is Actually What You Need for Vision - 图10

PoolFormer 的有效性验证了我们的假设,并敦促我们发起“MetaFormer”的概念,这是一种从 Transformer 中抽象出来的通用架构,没有指定token mixer。 基于广泛的实验,我们认为 MetaFormer 是在视觉任务上为最近的 Transformer 和类似 MLP 的模型取得优异结果的关键参与者。这项工作需要更多致力于改进 MetaFormer 的未来研究,而不是专注于token mixer模块。此外,我们提出的 PoolFormer 可以作为未来 MetaFormer 架构设计的起始基线。

MetaFormer is Actually What You Need for Vision - 图11

在COCO上目标检测的性能表现:

MetaFormer is Actually What You Need for Vision - 图12

在COCO目标检测和实例分割的性能表现:

MetaFormer is Actually What You Need for Vision - 图13

在ADE20K语义分割上的性能表现:

MetaFormer is Actually What You Need for Vision - 图14