- 分享主题:Multi-Task Learning
- 论文标题:End-to-End Multi-Task Learning with Attention
- 论文链接:hhttps://arxiv.org/pdf/1803.10704v1.pdf
- 分享人:唐共勇

1. Summary

【必写】,推荐使用 grammarly 检查语法问题,尽量参考论文 introduction 的写作方式。需要写出

  1. 这篇文章解决了什么问题?
  2. 作者使用了什么方法(不用太细节)来解决了这个问题?
  3. 你觉得你需要继续去研究哪些概念才会加深你对这篇文章的理解?

This paper proposes a new multi-task learning architecture, which allows learning the feature-level attention of specific tasks. MTAN (multi-task attention network) network is proposed, which is composed of a shared network including a global feature pool and soft attention module based on specific tasks. These features can be shared among different tasks at the same time. The architecture can be trained end-to-end and can be established on any forward neural network. It is simple to implement and has high parameter efficiency. Through experiments on a large number of data sets, good results have been achieved in image classification and prediction tasks. Another important point is that the network is less sensitive to various weight schemes in the multi-task loss function.

2. 你对于论文的思考

需要写出你自己对于论文的思考,例如优缺点,你的takeaways

网络架构(如何共享)。多任务学习架构应同时表达任务共享和任务特定特征。通过这种方式,鼓励网络学习可通用的表征(以避免过拟合),同时也提供学习针对每个任务的特征的能力(以避免欠拟合)
损失函数(如何平衡任务)。多任务损失函数,对每项任务的相对贡献进行加权,应使所有任务的学习具有同等重要性,而不允许较容易的任务占主导地位。手动调整损失权重是很繁琐的,最好是自动学习权重,或者设计一个对不同权重具有鲁棒性的网络。

3. 其他

【可选】

MTAN结构主要包括两大部分,一个任务共享的主网络和K个特定任务的子网络,共享网络可以根据特定的任务进行设计,而每个特定于任务的子网络由一组注意力模块组成,这些模块与共享网络相连接。每个注意力模块对共享网络的特定层应用一个soft attention mask,以学习特定于任务的特征。基于这种设计,共享主网络可以看做是一个跨任务的特征表示,每一个attention mask都可以被看作是对主网络的特征选择器,决定哪些共享特征被用到自己的子任务中去。
任务一(绿色)和任务二(蓝色)的注意力模块,与共享网络(灰色)相连,决定了主网络那些特征会被利用到子网络中。中间是一个注意力模块的内部结构
image.png

https://zhuanlan.zhihu.com/p/82234448
https://zhuanlan.zhihu.com/p/355163437