[2021] PaSST: Efficient Training of Audio Transformers with Patchout

浏览 357 扫码分享 2023-02-18 14:03:45

采用语音频谱作为输入，长音就对应长频谱呗！频谱采用 vit 技术进行特征提取，为了降低时序计算的复杂度（二次时间复杂度的 self attention 计算）采用随机 drop patches 的方式。最终在 audioSet 数据集上得到 SOTA 结果。

图中的 X 回路应该不存在。

若有收获，就点个赞吧

让时间为你证明