bmm对数据大小有要求,即必须为Bmn 和 Bnk ,出去Batch维就是两个矩阵乘法

    而matmul 不要求,可以四维甚至更多,自动进行广播机制,对后面两维进行矩阵乘法运算
    image.png
    image.png
    image.png
    image.png