multi-head self attentionpositional encoding 并行化 multi-head self attention增加q、k、v的数量 positional encoding整个attention过程都没利用位置信息