图像分割 - Dual Super-Resolution Learning for Semantic Segmentation - 《深度学习论文阅读》

说在开头
网络结构
性能增益
参考链接

说在开头

CVPR2020的一篇工作。引入了超分辨率恢复任务作为辅助任务，来帮助语义分割网络获得更高分辨率且更加良好预测。这篇文章不同于现有的方法，为了尽可能维持高分辨率的特征信息（这被证实是有效的），采用扩张卷积等策略维持较高的特征分辨率，同时还可能会使用更大分辨率的输入，这些都增加了运行时的负担，很不利于实际的应用。
这篇文章从一个新的角度出发——我不再去要求较高分辨率的输入或者维持较高分辨率的特征，而是争取预测一个更加细致的更高分辨率的输出。相当于将关注的内容更加切近了实际的需求，我们所做的一切都是为了获得更加贴近于真值（更好的、更高分辨率的）的预测。

为了满足这个需求，本文对现有语义分割算法（本文提出的是一种增强现有方法的策略）引入了超分辨率恢复的任务，这正是干这个的。整体组成了一个共享编码器的双分支双任务结构(SSSR语义分割超分辨分支+SISR单图像超分辨分支)，两个分支的预测都具有原始数据的分辨率（这一点算是改动了现有分割结构）。SISR分支仅仅是训练时用来优化SSSR的特征的，所以测试时是可以去掉的。这样可以实现更加轻量的推理结构。

此外，这两个流共享相同的特征提取器，并且在训练过程中通过重建监督对SISR分支进行了优化，并且在推理阶段将其从网络中删除，使得该结构不会增加额外的开销。我们可以很容易地发现SISR包含更完整的对象结构。尽管这些结构没有明确地暗示类别，但是它们可以通过像素和像素或区域和区域之间的关系有效地分组。众所周知，这些关系可以隐式地传递语义信息，从而有利于语义分割的任务。因此，我们应用从SISR中恢复的高分辨率特征来指导学习SSSR的高分辨率表示，并且这些细节可以通过内部像素之间的相关性或关系来建模。关系学习可以弥补解码器的简单设计。

使用超分辨作为辅助任务来提升主任务的性能的，ECCV2020还有一篇：

PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit：https://mp.weixin.qq.com/s/BjK0p21by1oljNbbOGM0RA

网络结构

性能增益

可以看到，输出分辨率的提升带来了明显的性能提升。而引入SISR结构，其带来的性能提升还是很依赖于与SSSR分支的交互（FA）的。

这里显著反映出了输入尺寸带来的性能增益。当然，带来的运算负担也是极大地。

可以看到，在更高分辨率的结构设计下，带来性能明显提升的是那些小目标，例如pole和rider。

另外在人体姿态估计的试验中反映出了良好的高分辨的输出对于该任务也是有提升的。

参考链接
论文：https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Dual_Super-Resolution_Learning_for_Semantic_Segmentation_CVPR_2020_paper.pdf
代码：
- 官方代码遥遥无期：https://github.com/wanglixilinx/DSRL
- 第三方实现：https://github.com/Dootmaan/DSRL
阅读资料：
- https://blog.csdn.net/weixin_42565571/article/details/106689394
- https://blog.csdn.net/sinat_17456165/article/details/106774684

Dual Super-Resolution Learning for Semantic Segmentation

说在开头

网络结构

性能增益

参考链接