交互分割 - [17/18 CVPR & 19 MICCAI] Extreme Points - 《图像分割》

1. [17 ICCV] Extreme clicking for efficient object annotation
- ">
2. [18 CVPR] Deep Extreme Cut: From Extreme Points to Object Segmentation
3. [19 MICCAI] Large-scale interactive object segmentation with human annotators
- Github">代码链接：Github

1. [17 ICCV] Extreme clicking for efficient object annotation

这个方法不是用来主要做交互分割的，而是优化了之前bbox标注的逻辑。作者称使用极值点来生成bbox比直接拖拽来生成tight要快。原因是：

起笔落笔的角落并不一定在物体上，用户需要去找极值点；
标注完成后可能没有紧紧包裹住物体，需要再次拖拽调整bbox；
“单击”，“拖拽”，“调整”是三个不同地任务，需要用户在使用时需要做思想转换；
画的矩形和角点都是虚构的，这种心理意象“Mental Imagery”也增加了用户负担。

极值点的优点：

极限点不是想象的，而是物体上的物理点，这使得它们易于定位；
减少了心理意象；
注释器只执行一个任务，因此避免了任务切换；
不需要bbox调整步骤；
不需要“提交”按钮；四次单击后注释终止。

虽然这么说，在CVPR2020上，IOG似乎提供了一个有效的解决思路：

为鼠标提供了一个水平和竖直的参考线，这样减少了“Mental Imagery”，当然这个参考线大家很早就在用了，可以在这里（Polygon RNN++）试试。容易判断落点位置。在实际交互中，传统的bbox交互方式只需要确定两个关键点，交互成本大致是2.5个点，而极值点需要认真确定4个点。
在一些图片上，确定极值点也会出现一些困难，如下图：

尽管如此，基于极值点的方法似乎包含了更多的信息，不光提供了bbox还提供了四个准确的边界信息，这个标注逻辑的提出激发了后续的DEXTR。

2. [18 CVPR] Deep Extreme Cut: From Extreme Points to Object Segmentation

简称：DEXTR

代码链接：Project

方法部分：

这个工作的做法是将之前的极值点作为一个单独的通道（和原图形成四通道）作为输出，然后直接预测。使用的网络是 ResNet-101 + PSP (Deeplab-v2 model pre-trained on ImageNet, and ﬁne-tuned on PASCAL for semantic segmentation)。

在文中，该网络是可以允许输入第5个点的（在最大错误区域的边界），并且作者采用了 Online Hard Example Mining (OHEM)【1】的方式进行训。在PASCAL VOC 2012 validation dataset上困难用例的测试结果：