相关介绍

什么是良好的显著性检测模型

一般认为,良好的显著性检测模型应至少满足以下三个标准:

  1. 良好的检测:丢失实际显著区域的可能性以及将背景错误地标记为显著区域应该是低的
  2. 高分辨率:显著图应该具有高分辨率或全分辨率以准确定位突出物体并保留原始图像信息
  3. 计算效率:作为其他复杂过程的前端,这些模型应该快速检测显著区域

几类方法

人眼的视觉注意机制使人类能够在复杂场景中实时定位图像中位置相对重要的信息,并以此来判定处理不同目标的优先级序列,这样可有效地缩小视觉处理的范围,进而极大地节约计算资源。因此,对人类的视觉注意机制进行研究并将其应用于计算机视觉和图像处理等领域具有非常重大的意义。

人类能够毫不费力地快速检测视觉上独特(所谓的显着)场景区域(预注意阶段)。然后,这些过滤的区域以细节被感知和处理,以提取更丰富的高级信息(注意阶段)。这种能力长期以来一直由认知科学家研究,并且最近引起了对计算机视觉社区的很多兴趣,主要是因为它有助于找到有效代表场景的对象或区域,从而利用场景理解等复杂的视觉问题。

自下而上

计算机视觉研究人员模拟视觉注意机制的初期往往采用自下而上的过程,这类模型被称为自下而上的显著性模型。如:

  1. Itti等人模拟人脑视皮层神经细胞对颜色、亮度和方向特征的融合机制,并使用“中心–周边”原理建立了视觉显著性模型,有效地检测出了对比度明显的显著性区域。此模型计算过程简单,但对目标区域的检测不够准确。[Itti, L., Koch, C. and Niebur, E. (1998) A Model of Saliency-Based Visual Attention for Rapid Scene Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20, 1254-1259. https://doi.org/10.1109/34.730558]
  2. Yang C等人基于图论模型对Itti模型加以改进,提出了GBVS (Saliency detection via graph-based)算法模型。其计算方法与Itti模型相似,图像颜色、亮度与方向等底层特征的提取方法相同。GBVS模型通过马尔可夫随机场计算特征显著图,能够从全局的角度较好地进行图像显著性检测,但其缺点是效率较低,无法辨识目标轮廓。[Yang, C., Zhang, L.H., Lu, H.C., et al. (2013) Saliency Detection via Graph-Based Manifold Ranking. IEEE Conference on Computer Vision and Pattern Recognition, 23-28 June 2013, Portland, OR, 3166-3173. https://doi.org/10.1109/CVPR.2013.407]
  3. 侯晓迪等人提出了一种SR (Spectral Residual)算法,该方法认为从图像的幅度谱中减去先验知识的幅度谱,剩下的就是显著部分的幅度谱,再通过频域空间变换就可得到目标显著图。此算法运算速度虽快,但精确度难以保证。[Hou, X.D. and Zhang, L.Q. (2007) Saliency Detection: A Spectral Residual Approach. IEEE Conference on Computer Vision and Pattern Recognition, 17-22 June 2007, Minneapolis, MN, 1-8. https://doi.org/10.1109/CVPR.2007.383267]
  4. Shen等人提出的LR (Low Rank)算法将高层先验统一到低秩的框架中,能够提取较多的显著特征,但其计算量较大,得到的显著图均匀性较差。[Shen, X.H. and Wu, Y. (2012) A Unified Approach to Sa-lient Object Detection via Low Rank Matrix Recovery. IEEE Conference on Computer Vision and Pattern Recognition, 16-21 June 2012, Providence, RI, 853-860. https://doi.org/10.1109/CVPR.2012.6247758 ] [Li, C., Chen, Z., Li, S., Wang, Y.G., et al. (2017) Video Saliency Detection via Spatial-Temporal Fusion and Low-Rank Coherency Diffusion. IEEE Transactions on Image Pro-cessing, 26, 3156-3170. https://doi.org/10.1109/TIP.2017.2670143]

总的来说,自下而上的显著性方法大都比较基础,运算速度较快,算法实现简单,但得到的显著性检测结果往往通过密集的亮点来表示显著性部分,因此无法显现出显著性物体的清晰轮廓。

自上而下

另外一种显著性检测方法为自上而下的模型。主要根据具体任务通过对自下而上的检测结果进行形状、大小、特征数、阈值等调整而实现的 [6] 。

例如:

  1. Achanta等人 [7] 提出的FT (Frequency tuned)算法就是将经过高斯低通滤波图像中的每个像素值和整幅图像的平均像素值之间的欧式距离作为该点的显著值,形成了一种基于全局对比的显著区域检测方法。
  2. Cheng等人 [8] 提出的RC (Region Contrast)算法则通过计算每个划分区域的显著性值,构建了基于局部对比度的显著性图。
  3. Dalal等人 [9] 提出了一种基于梯度直方图特征的人体检测方法。该方法使用梯度方向直方图信息来表达人体特征,并提取人体的外形信息和运动信息,进而组成了丰富的特征集。

    7: Achanta, R., Hemami, S., Estrada, F., et al. (2009) Frequency-Tuned Salient Region Detection. IEEE Conference on Computer Vision and Pattern Recognition, 20-25 June 2009, Miami, FL, 1597-1604. https://doi.org/10.1109/CVPR.2009.5206596 8: Cheng, M.M., Mitra, N.J., Huang, X., et al. (2015) Global Contrast Based Salient Region Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 569-582. https://doi.org/10.1109/TPAMI.2014.2345401 9: Dalal, N. and Triggs, B. (2005) Histograms of Oriented Gra-dients for Human Detection. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 20-25 June 2005, San Diego, CA, 886-893. https://doi.org/10.1109/CVPR.2005.177

这几种自上向下的模型 [7] [8] [9] 均是通过图像的局部对比度特征进行显著特性分析,此类模型由于要提取多种特征,因此运算速度较慢,并且容易受到光照环境等客观因素的影响,使得目标检测的准确率大大降低。

机器学习

<待完善>

近年来,许多研究者将机器学习等类方法应用于显著性检测方面并取得了较大进展。如:

  1. 杜玉龙等人 [10] [11] 根据人眼视觉原理,构建深度卷积神经网络模型(CNN)并结合超像素聚类方法获取图像区域特征,通过对特征进行学习实现了有效的显著性区域检测。
  2. Ying Tang等人 [12] 是利用机器学习和稀疏编码的高效性和鲁棒性进行显著性检测的。此类方法鲁棒性高,但运算速度慢。
  3. 为此,Bing Yang等人 [13] [14] 将主成分分析法(PCA)运用到显著性检测中,该方法保留了机器学习的高效性,但是,当图像背景信息量较大时,难以有效的提取出仅代表显著目标的主成分信息,从而导致检测结果含有较大的背景噪声。

在显著性检测任务中,由于图像的复杂性,对于单一级别的检测方法得到的显著图是不明确的。

  1. 为了减少图像复杂度的影响,Che等人 [15] 提出了HS (Hierarchical Saliency)算法。该方法通过对图像分层并计算分层显著图,有效地抑制了背景噪声对目标检测的干扰。
  2. 李波等人 [15] [17] [18] 也利用了分层图像以及融合各层特征的方式对物体进行检测,都取得了比较好的检测效果。

参考链接