https://github.com/lucidrains/vit-pytorch
首先是将图像转为 patches,然后对 patches 进行编码转为向量,之后将 patch embeddings 作为时序序列进行 transformer 的特征提取。
如何产生 patch embeddings?1.先分 patches,然后进行变换将每个 patch 变为一个向量;2.直接一个 conv2d,kernel 设为 patch size,stride 根据需要分的 patch 数量而定;conv2d 卷积之后生成的特征图就是所有的 patch embeddings(flatten一下)。