1. 自注意力输入输出张量维度都是(句子个数, sentence_length, enbedding_dim)
    2. 获得张量体现的是每个字跟自己关系大小,自注意力机制体现的对角线是对自己的关系,往往高亮
    3. 自注意力是个系数矩阵在transformer中起到增强高相关度的字的权重的作用