- 分享主题:information transfer
- 论文标题:Understanding and improving information transfer in multi-task learning.
- 论文链接:https://openreview.net/pdf?id=SylzhkBtDB
- 分享人:唐共勇

1. Summary

【必写】,推荐使用 grammarly 检查语法问题,尽量参考论文 introduction 的写作方式。需要写出

  1. 这篇文章解决了什么问题?
  2. 作者使用了什么方法(不用太细节)来解决了这个问题?
  3. 你觉得你需要继续去研究哪些概念才会加深你对这篇文章的理解?

This paper studies a multi-task learning method using shared function representation for all tasks. To better understand the transmission of task information, the author designs architecture with a shared module for all tasks and a separate output module for each task. The performance of this architecture is tested on linear and Relu activation models. The results show that the misalignment between task data will lead to negative transfer (or damage performance), and provide sufficient conditions for positive transfer. Therefore, the embedding layer of aligned tasks can improve the performance of multi-task training and transfer learning of glue benchmark and emotion analysis tasks The author also designs a task reweighting scheme based on SVD and shows that it improves the robustness of multi-task training for multi-label image data sets.

2. 你对于论文的思考

需要写出你自己对于论文的思考,例如优缺点,你的takeaways

  1. 模型容量。因为如果共享模块的容量太大,则任务之间不会有相互影响。 如果太小,可能会产生负面影响。这是自然的:参数过多,模型完全可以用独立的参数分开建模,只是模型堆在了一起而已;参数过少,对于多个任务模型表达能力不足;适当的参数“逼迫”模型想办法共享参数,而共享则产生了任务间的相互影响。
  2. 数据相似性。原单任务的数据分布的影响,可用数据相似性表征。
  3. 每个任务的权重。当A任务训练样本噪声较大(文中指的是多分类任务的分类标签有误),B任务训练样本噪声较小,作者认为让A、B两个任务联合训练并适当增大B任务的权重,会对A任务的性能产生正面的影响。
  4. image.png

    3. 其他

    【可选】

模型容量
作者认为共享模型容量应小于单任务每个模型容量之和。基于线性模型给出证明。
最优模型容量决定于数据相似性
数据相似性
为数据相似性首先提出Task Covariance的概念。核心Idea即度量优化完成后各模型的参数的相似性(度量方法例如余弦相似性),作者提出一种称为covariance similarity score的数据相似性度量方法:image.png
提出下图的Task Embeddings层对各任务数据进行对齐以促进数据相似性的影响,以及对应的训练方法。
image.pngimage.png
每个任务的权重
提出一种基于SVD的权重分配方法
image.png