图像检索;SIFT特征;特征融合;词袋模型(BOW);注意力机制;细粒度;度量学习;哈希编码;K-D树;PQ乘积量化;图像识别;深度学习

定义

查询条件本身是一个图像,并从图片检索数据库中检索出满足条件的图片。

检索流程

基于内容的图片检索技术(Content Based Image Retrieval) - 图1

技术简介

SIFT(Scale-invariant feature transform)特征

  • 用途:尺度不变特征变换,是一种局部特征描述子,用于解决图片在发生平移、旋转、仿射变化下的匹配问题。
  • 特点:稳定、不变性,一定程度上不受仿射变换、视角、噪声干扰;多量性,产生的特征向量很多;高速性,能快速进行特征匹配;可扩展性,能与其它形式的特征向量进行联合。
  • 步骤:提取关键点;定位关键点并确定其特征方向;通过各关键点的特征向量,进行两两比较找出相互匹配的若干特征点,从而建立两幅图的对应关系。

例子:基于内容的图片检索技术(Content Based Image Retrieval) - 图2

度量学习 Metric Learning

  • 定义:数学上,一个度量(或距离函数)是一个定义集合中元素之间距离的函数。一个具有度量的集合被称为度量空间。度量学习又被称为距离度量学习 (Distance Metric Learning,DML)、相似度学习,即学习某个特定任务的距离度量函数
  • 应用举例:经典的识别网络需要提前设定类别数。因此要采用度量学习的方法替代经典的识别网络。
  • 典型方法:Triplet Loss,用于训练差异性较小的样本(如人脸)通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本的相似性计算。

基于内容的图片检索技术(Content Based Image Retrieval) - 图3

局部敏感哈希算法(locality-sensetive hashing,LSH)

  • 定义:通过哈希函数将原始数据集分成多个子集合,从而将在超大集合内查找相邻元素的问题转化为在很小集合内查找相邻元素的问题,节省计算开销。
  • 应用:查找网络上的重复网页;查找相似的新闻网页或文章;图像检索;音乐检索;指纹匹配。

未来发展

  • 特征增强:在检索结构一定的条件下,通过优化特征提取器,学习到表示能力更强、检索开销更小的特征。
  • 工程架构:需要高并发低延迟,对云服务器、存储、数据库提出了更高要求,需要能完成检索结构、特征库的动态更新。
  • 问题反思:图像特征级别的相似不代表语义级别的相似,用户很可能是对图片的高层语义信息进行检索,可以从此入手通过主题模型等方法对图像表达的内容进行建模,结合多模态知识图谱中聚类去冗等手段,提升检索结果的质量。但这相当于对问题进行了重新解释,或许需要更改现有的数据集和评价指标等内容。
  • 新的思路:与多模态知识图谱结合,通过图谱获得可靠的检索结果,或通过图像检索手段进行多模态图谱的知识补全工作。但要实现前者,需要一个十分完善的多模态知识图谱。

参考文献

  1. 图片检索综述 https://zhuanlan.zhihu.com/p/65306548
  2. 图片检索综述 https://yongyuan.name/blog/cbir-technique-summary.html
  3. PQ量化介绍 https://blog.csdn.net/guanyonglai/article/details/78468673
  4. SIFT算子介绍 https://blog.csdn.net/qq_37374643/article/details/88606351
  5. Triplet Loss https://www.jianshu.com/p/46c6f68264a1
  6. LSH https://blog.csdn.net/icvpr/article/details/12342159