截屏2021-08-08 下午12.21.48.png

1. Abstract

多任务学习模型对任务间相关性非常敏感,受限于共享层表达能力有限,任务相关性较低时会影响多任务学习模型的效果,为此提出MMOE,主要方法有:

  1. Experts网络:将共享网络解耦为多个expert网络,提高共享层表达能力;
  2. Gates网络:从输入数据学习多任务间的相关性,指导共享层的信息提取权重。

网络结构如下:
截屏2021-08-08 下午12.53.14.png

2. Shared-bottom Multi-task Model

2.1 传统模型:

其中分别为shared-bottom network和tower network。

2.2 One-gate MoE

2.3 Multi-gate Mixture-of-Experts

3. Average performance with different correlations

截屏2021-08-08 下午2.29.31.png

4. Performance on dataset

截屏2021-08-08 下午2.31.25.png 截屏2021-08-08 下午2.32.01.png