1. [17 ICCV] Extreme clicking for efficient object annotation

image.png

这个方法不是用来主要做交互分割的,而是优化了之前bbox标注的逻辑。 作者称使用极值点来生成bbox比直接拖拽来生成tight要快。原因是:

  1. 起笔落笔的角落并不一定在物体上,用户需要去找极值点;
  2. 标注完成后可能没有紧紧包裹住物体,需要再次拖拽调整bbox;
  3. “单击”,“拖拽”,“调整”是三个不同地任务,需要用户在使用时需要做思想转换;
  4. 画的矩形和角点都是虚构的,这种心理意象“Mental Imagery”也增加了用户负担。

极值点的优点:

  1. 极限点不是想象的,而是物体上的物理点,这使得它们易于定位;
  2. 减少了心理意象;
  3. 注释器只执行一个任务,因此避免了任务切换;
  4. 不需要bbox调整步骤;
  5. 不需要“提交”按钮;四次单击后注释终止。

虽然这么说,在CVPR2020上,IOG似乎提供了一个有效的解决思路:
image.png
为鼠标提供了一个水平和竖直的参考线,这样减少了“Mental Imagery”,当然这个参考线大家很早就在用了,可以在这里(Polygon RNN++)试试。容易判断落点位置。在实际交互中,传统的bbox交互方式只需要确定两个关键点,交互成本大致是2.5个点,而极值点需要认真确定4个点。
在一些图片上,确定极值点也会出现一些困难,如下图:
image.png
尽管如此,基于极值点的方法似乎包含了更多的信息,不光提供了bbox还提供了四个准确的边界信息,这个标注逻辑的提出激发了后续的DEXTR

2. [18 CVPR] Deep Extreme Cut: From Extreme Points to Object Segmentation

简称:DEXTR

代码链接:Project

方法部分:

image.png

这个工作的做法是将之前的极值点作为一个单独的通道(和原图形成四通道)作为输出,然后直接预测。使用的网络是 ResNet-101 + PSP (Deeplab-v2 model pre-trained on ImageNet, and fine-tuned on PASCAL for semantic segmentation)。

在文中,该网络是可以允许输入第5个点的(在最大错误区域的边界),并且作者采用了 Online Hard Example Mining (OHEM)【1】 的方式进行训。在PASCAL VOC 2012 validation dataset上困难用例的测试结果:
image.png

实验观察:

image.png
image.png

1. Bounding boxes vs. extreme points

作者说extreme points比bbox好👀。

2. Loss

基于Class-balancing的Loss好于传统standard cross entropy Loss。

3. Full image vs. crops

极值点方法做了 50 pixel 的放松Crop,相比于Full image输入有显著提升。

4. Atrous spatial pyramid (ASPP) vs. pyramid scene parsing (PSP) module

在DEXTR中PSP比ASPP效果好。

5. Distance-map vs. fixed points

Fixed point比distance-map好。

【1】 A. Shrivastava, A. Gupta, and R. Girshick. Training regionbased object detectors with online hard example mining. In CVPR, 2016.

3. [19 MICCAI] Large-scale interactive object segmentation with human annotators

代码链接:Github

image.png
这篇文章和DEXTR的区别是输入从之前的四个高斯点变成了下图中的十字形的Heatmap:
image.png