


Recently, visual Transformer (ViT) and its following works abandon the convolution and exploit the self-attention operation, attaining a comparable or even higher accuracy than CNNs. More recently, MLP-Mixer abandons both the convolution and the self-attention operation, proposing an architecture containing only MLP layers.
To achieve cross-patch communications, it devises an additional token-mixing MLP besides the channel-mixing MLP. It achieves promising results when training on an extremely large-scale dataset. But it cannot achieve as outstanding performance as its CNN and ViT counterparts when training on medium-scale datasets such as ImageNet1K and ImageNet21K. The performance drop of MLP-Mixer motivates us to rethink the token-mixing MLP.


We discover that the token-mixing MLP is a variant of the depthwise convolution with a global reception field and spatial-specific configuration. But the global reception field and the spatial-specific property make token-mixing MLP prone to over-fitting.


In this paper, we propose a novel pure MLP architecture, spatial-shift MLP (S2-MLP). Different from MLP-Mixer, our S2-MLP only contains channel-mixing MLP.


We utilize a spatial-shift operation for communications between patches. It has a local reception field and is spatial-agnostic. It is parameter-free and efficient for computation.

引出本文的核心内容,也就是标题中提到的空间偏移操作。看上去这一操作不带参数,仅仅是用来调整特征的一个处理手段。 Spatial-Shift操作可以参考这里的几篇文章:

The proposed S2-MLP attains higher recognition accuracy than MLP-Mixer when training on ImageNet-1K dataset. Meanwhile, S2-MLP accomplishes as excellent performance as ViT on ImageNet-1K dataset with considerably simpler architecture and fewer FLOPs and parameters.


Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S2-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S2-MLP.


In this paper, we improve the S2-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts.


Meanwhile, we exploit the split-attention operation to fuse these split parts.


Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy.
We term the improved spatial-shift MLP vision backbone as S2-MLPv2. Using 55M parameters, our medium-scale model, S2-MLPv2-Medium achieves an 83.6% top-1 accuracy on the ImageNet-1K benchmark using 224×224 images without self-attention and external training data.

  1. 引入多分支处理的思想,并应用Split-Attention来融合不同分支。
  2. 受现有工作的启发,使用更小的patch和分层金字塔结构。




    MLP-Mixer的结构图: image.png

另外,S2MLP的改动主要集中在空间MLP的位置,由原来的Spatial-MLP(Linear->GeLU->Linear)转变为Spatial-Shifted Channel-MLP(Linear->GeLU->Spatial-Shift->Lienar)

Split-Attention: Vision Permutator (Hou et al., 2021) adopts split attention proposed in ResNeSt (Zhang et al., 2020) for enhancing multiple feature maps from different operations. 本文借鉴使用来融合多分支。 主要操作过程:

  1. 输入S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图8个特征图(可以来自不同分支)S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图9
  2. 将所有特诊图的列求和后的结果累加:S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图10
  3. 通过堆叠的全连接层进行变换,得到针对不同特征图的通道注意力logits:S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图11
  4. 使用reshape来调整注意力向量的形状:S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图12
  5. 使用softmax沿着索引S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图13计算,来获得针对不同样本的归一化注意力权重:S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图14
  6. 对输入的S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图15个特征图加权求和得到结果S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图16,其一行的结果可以表示为:S2-MLP V1&V2 : Spatial-Shift MLP Architecture for Vision - 图17


GhostNet的核心结构: image.png



Spatial-Shift与Depthwise Convolution的关系

所以分组空间偏移操作可以通过为Depthwise Convolution的不同分组指定对应上面的卷积核来实现。
实际上实现偏移的方法非常多,除了文中提到的切片索引和构造核的depthwise convolution的方式,还可以通过分组torch.roll和自定义offset的deform_conv2d来实现。

  1. import torch
  2. import torch.nn.functional as F
  3. from torchvision.ops import deform_conv2d
  4. xs = torch.meshgrid(torch.arange(5), torch.arange(5))
  5. x = torch.stack(xs, dim=0)
  6. x = x.unsqueeze(0).repeat(1, 4, 1, 1).float()
  7. direct_shift = torch.clone(x)
  8. direct_shift[:, 0:2, :, 1:] = torch.clone(direct_shift[:, 0:2, :, :4])
  9. direct_shift[:, 2:4, :, :4] = torch.clone(direct_shift[:, 2:4, :, 1:])
  10. direct_shift[:, 4:6, 1:, :] = torch.clone(direct_shift[:, 4:6, :4, :])
  11. direct_shift[:, 6:8, :4, :] = torch.clone(direct_shift[:, 6:8, 1:, :])
  12. print(direct_shift)
  13. pad_x = F.pad(x, pad=[1, 1, 1, 1], mode="replicate") # 这里需要借助padding来保留边界的数据
  14. roll_shift =
  15. [
  16. torch.roll(pad_x[:, c * 2 : (c + 1) * 2, ...], shifts=(shift_h, shift_w), dims=(2, 3))
  17. for c, (shift_h, shift_w) in enumerate([(0, 1), (0, -1), (1, 0), (-1, 0)])
  18. ],
  19. dim=1,
  20. )
  21. roll_shift = roll_shift[..., 1:6, 1:6]
  22. print(roll_shift)
  23. k1 = torch.FloatTensor([[0, 0, 0], [1, 0, 0], [0, 0, 0]]).reshape(1, 1, 3, 3)
  24. k2 = torch.FloatTensor([[0, 0, 0], [0, 0, 1], [0, 0, 0]]).reshape(1, 1, 3, 3)
  25. k3 = torch.FloatTensor([[0, 1, 0], [0, 0, 0], [0, 0, 0]]).reshape(1, 1, 3, 3)
  26. k4 = torch.FloatTensor([[0, 0, 0], [0, 0, 0], [0, 1, 0]]).reshape(1, 1, 3, 3)
  27. weight =[k1, k1, k2, k2, k3, k3, k4, k4], dim=0) # 每个输出通道对应一个输入通道
  28. conv_shift = F.conv2d(pad_x, weight=weight, groups=8)
  29. print(conv_shift)
  30. offset = torch.empty(1, 2 * 8 * 1 * 1, 1, 1)
  31. for c, (rel_offset_h, rel_offset_w) in enumerate([(0, -1), (0, -1), (0, 1), (0, 1), (-1, 0), (-1, 0), (1, 0), (1, 0)]):
  32. offset[0, c * 2 + 0, 0, 0] = rel_offset_h
  33. offset[0, c * 2 + 1, 0, 0] = rel_offset_w
  34. offset = offset.repeat(1, 1, 7, 7).float()
  35. weight = torch.eye(8).reshape(8, 8, 1, 1).float()
  36. deconv_shift = deform_conv2d(pad_x, offset=offset, weight=weight)
  37. deconv_shift = deconv_shift[..., 1:6, 1:6]
  38. print(deconv_shift)
  39. """
  40. tensor([[[[0., 0., 0., 0., 0.],
  41. [1., 1., 1., 1., 1.],
  42. [2., 2., 2., 2., 2.],
  43. [3., 3., 3., 3., 3.],
  44. [4., 4., 4., 4., 4.]],
  45. [[0., 0., 1., 2., 3.],
  46. [0., 0., 1., 2., 3.],
  47. [0., 0., 1., 2., 3.],
  48. [0., 0., 1., 2., 3.],
  49. [0., 0., 1., 2., 3.]],
  50. [[0., 0., 0., 0., 0.],
  51. [1., 1., 1., 1., 1.],
  52. [2., 2., 2., 2., 2.],
  53. [3., 3., 3., 3., 3.],
  54. [4., 4., 4., 4., 4.]],
  55. [[1., 2., 3., 4., 4.],
  56. [1., 2., 3., 4., 4.],
  57. [1., 2., 3., 4., 4.],
  58. [1., 2., 3., 4., 4.],
  59. [1., 2., 3., 4., 4.]],
  60. [[0., 0., 0., 0., 0.],
  61. [0., 0., 0., 0., 0.],
  62. [1., 1., 1., 1., 1.],
  63. [2., 2., 2., 2., 2.],
  64. [3., 3., 3., 3., 3.]],
  65. [[0., 1., 2., 3., 4.],
  66. [0., 1., 2., 3., 4.],
  67. [0., 1., 2., 3., 4.],
  68. [0., 1., 2., 3., 4.],
  69. [0., 1., 2., 3., 4.]],
  70. [[1., 1., 1., 1., 1.],
  71. [2., 2., 2., 2., 2.],
  72. [3., 3., 3., 3., 3.],
  73. [4., 4., 4., 4., 4.],
  74. [4., 4., 4., 4., 4.]],
  75. [[0., 1., 2., 3., 4.],
  76. [0., 1., 2., 3., 4.],
  77. [0., 1., 2., 3., 4.],
  78. [0., 1., 2., 3., 4.],
  79. [0., 1., 2., 3., 4.]]]])
  80. tensor([[[[0., 0., 0., 0., 0.],
  81. [1., 1., 1., 1., 1.],
  82. [2., 2., 2., 2., 2.],
  83. [3., 3., 3., 3., 3.],
  84. [4., 4., 4., 4., 4.]],
  85. [[0., 0., 1., 2., 3.],
  86. [0., 0., 1., 2., 3.],
  87. [0., 0., 1., 2., 3.],
  88. [0., 0., 1., 2., 3.],
  89. [0., 0., 1., 2., 3.]],
  90. [[0., 0., 0., 0., 0.],
  91. [1., 1., 1., 1., 1.],
  92. [2., 2., 2., 2., 2.],
  93. [3., 3., 3., 3., 3.],
  94. [4., 4., 4., 4., 4.]],
  95. [[1., 2., 3., 4., 4.],
  96. [1., 2., 3., 4., 4.],
  97. [1., 2., 3., 4., 4.],
  98. [1., 2., 3., 4., 4.],
  99. [1., 2., 3., 4., 4.]],
  100. [[0., 0., 0., 0., 0.],
  101. [0., 0., 0., 0., 0.],
  102. [1., 1., 1., 1., 1.],
  103. [2., 2., 2., 2., 2.],
  104. [3., 3., 3., 3., 3.]],
  105. [[0., 1., 2., 3., 4.],
  106. [0., 1., 2., 3., 4.],
  107. [0., 1., 2., 3., 4.],
  108. [0., 1., 2., 3., 4.],
  109. [0., 1., 2., 3., 4.]],
  110. [[1., 1., 1., 1., 1.],
  111. [2., 2., 2., 2., 2.],
  112. [3., 3., 3., 3., 3.],
  113. [4., 4., 4., 4., 4.],
  114. [4., 4., 4., 4., 4.]],
  115. [[0., 1., 2., 3., 4.],
  116. [0., 1., 2., 3., 4.],
  117. [0., 1., 2., 3., 4.],
  118. [0., 1., 2., 3., 4.],
  119. [0., 1., 2., 3., 4.]]]])
  120. tensor([[[[0., 0., 0., 0., 0.],
  121. [1., 1., 1., 1., 1.],
  122. [2., 2., 2., 2., 2.],
  123. [3., 3., 3., 3., 3.],
  124. [4., 4., 4., 4., 4.]],
  125. [[0., 0., 1., 2., 3.],
  126. [0., 0., 1., 2., 3.],
  127. [0., 0., 1., 2., 3.],
  128. [0., 0., 1., 2., 3.],
  129. [0., 0., 1., 2., 3.]],
  130. [[0., 0., 0., 0., 0.],
  131. [1., 1., 1., 1., 1.],
  132. [2., 2., 2., 2., 2.],
  133. [3., 3., 3., 3., 3.],
  134. [4., 4., 4., 4., 4.]],
  135. [[1., 2., 3., 4., 4.],
  136. [1., 2., 3., 4., 4.],
  137. [1., 2., 3., 4., 4.],
  138. [1., 2., 3., 4., 4.],
  139. [1., 2., 3., 4., 4.]],
  140. [[0., 0., 0., 0., 0.],
  141. [0., 0., 0., 0., 0.],
  142. [1., 1., 1., 1., 1.],
  143. [2., 2., 2., 2., 2.],
  144. [3., 3., 3., 3., 3.]],
  145. [[0., 1., 2., 3., 4.],
  146. [0., 1., 2., 3., 4.],
  147. [0., 1., 2., 3., 4.],
  148. [0., 1., 2., 3., 4.],
  149. [0., 1., 2., 3., 4.]],
  150. [[1., 1., 1., 1., 1.],
  151. [2., 2., 2., 2., 2.],
  152. [3., 3., 3., 3., 3.],
  153. [4., 4., 4., 4., 4.],
  154. [4., 4., 4., 4., 4.]],
  155. [[0., 1., 2., 3., 4.],
  156. [0., 1., 2., 3., 4.],
  157. [0., 1., 2., 3., 4.],
  158. [0., 1., 2., 3., 4.],
  159. [0., 1., 2., 3., 4.]]]])
  160. tensor([[[[0., 0., 0., 0., 0.],
  161. [1., 1., 1., 1., 1.],
  162. [2., 2., 2., 2., 2.],
  163. [3., 3., 3., 3., 3.],
  164. [4., 4., 4., 4., 4.]],
  165. [[0., 0., 1., 2., 3.],
  166. [0., 0., 1., 2., 3.],
  167. [0., 0., 1., 2., 3.],
  168. [0., 0., 1., 2., 3.],
  169. [0., 0., 1., 2., 3.]],
  170. [[0., 0., 0., 0., 0.],
  171. [1., 1., 1., 1., 1.],
  172. [2., 2., 2., 2., 2.],
  173. [3., 3., 3., 3., 3.],
  174. [4., 4., 4., 4., 4.]],
  175. [[1., 2., 3., 4., 4.],
  176. [1., 2., 3., 4., 4.],
  177. [1., 2., 3., 4., 4.],
  178. [1., 2., 3., 4., 4.],
  179. [1., 2., 3., 4., 4.]],
  180. [[0., 0., 0., 0., 0.],
  181. [0., 0., 0., 0., 0.],
  182. [1., 1., 1., 1., 1.],
  183. [2., 2., 2., 2., 2.],
  184. [3., 3., 3., 3., 3.]],
  185. [[0., 1., 2., 3., 4.],
  186. [0., 1., 2., 3., 4.],
  187. [0., 1., 2., 3., 4.],
  188. [0., 1., 2., 3., 4.],
  189. [0., 1., 2., 3., 4.]],
  190. [[1., 1., 1., 1., 1.],
  191. [2., 2., 2., 2., 2.],
  192. [3., 3., 3., 3., 3.],
  193. [4., 4., 4., 4., 4.],
  194. [4., 4., 4., 4., 4.]],
  195. [[0., 1., 2., 3., 4.],
  196. [0., 1., 2., 3., 4.],
  197. [0., 1., 2., 3., 4.],
  198. [0., 1., 2., 3., 4.],
  199. [0., 1., 2., 3., 4.]]]])
  200. """



  • 偏移确实可以带来性能增益。
  • a和b:四个方向和八个方向相比,差异并不大。
  • e和f:水平偏移效果更好。
  • c和e/f:两个轴的偏移要好于单个轴的偏移。








    这里的实验说明有些模糊,作者说道“In this section, we evaluate the influence of removing one of them.”但是却没有说明去掉特定分支后其他结构的调整方式。




  • 论文:

  • 参考代码: