Transformer - Vision Transformer - 《深度学习笔记》

https://github.com/lucidrains/vit-pytorch
首先是将图像转为 patches，然后对 patches 进行编码转为向量，之后将 patch embeddings 作为时序序列进行 transformer 的特征提取。

如何产生 patch embeddings？1.先分 patches，然后进行变换将每个 patch 变为一个向量；2.直接一个 conv2d，kernel 设为 patch size，stride 根据需要分的 patch 数量而定；conv2d 卷积之后生成的特征图就是所有的 patch embeddings（flatten一下）。