利用局部特征向量进行图像检索和分类

作者 | VIKAS VERMA
单位 | Department of Computer Science & Engineering Indian Institute of Technology Madras
代码 |

摘要

基于内容的图像检索(CBIR)是信息检索领域的一个重要分支。CBIR算法的目标是检索语义相似的图像,以响应最终用户提交的查询图像。基于内容的图像检索(CBIR)是一个困难的问题,因为这种现象被称为语义鸿沟。

在本论文中,我们旨在分析使用局部特征向量和中间匹配核构建的CBIR系统的性能。我们还致力于减少CBIR系统的响应时间和提高检索性能。我们提出了一个两步匹配过程来缩短响应时间,并开发了一个元学习框架来提高检索性能。结果表明,两步匹配过程显著缩短了响应时间,元学习框架能够将检索性能提高两倍以上。为此,我们分析了使用由局部特征向量构造的不同图像表示的不同图像分类系统的性能。

第一章

基于内容的图像检索

介绍

1.1 Definition and Motivation

任何有助于根据数字图像的视觉内容对其进行系统化或组织化的技术都可以被视为CBIR系统。也就是说,从简单的图像相似性函数到健壮的图像搜索引擎(如谷歌图像搜索),任何技术都属于CBIR范畴。CBIR系统的目标是对图像数据进行操作,并响应视觉查询,从数据集中提取相关图像。该过程如图1.1所示。请注意,查询图像的特征提取和相似性度量是在线过程,而数据库图像的特征提取是离线过程。

最近互联网和数字技术的巨大增长带来了可用数字图像数量的大幅增加。此类图像数据的存储相对简单,但此类数据的容易搜索和检索要求有一个能够高效和有效地组织此类数据的系统。需要一个通用的系统来组织大型图像数据库,这是基于内容的图像检索(CBIR)系统背后的动机。
CBIR技术包括图像分割、特征提取、特征表示、存储和索引、图像相似性度量和检索等多个领域。所有这些都使得开发CBIR系统成为一项具有挑战性的任务。
image.png

1.2 Challenges Involved

1.2.1 Semantic Gap


图像的语义是指图像内容的意义。相对于低级的图像视觉特征,语义是高级的概念。通常,具有相似低层特征的图像可能包含不同的概念,例如,太阳图像和橙色图像都具有相似的颜色特征,但它们包含完全不同的概念。类似地,具有不同低级视觉特征的图像可能包含相同的概念,例如,车辆等物体的图像可能具有不同的颜色和形状,因此具有不同的低级特征,但它们仍然代表相同的概念。图像中存在的低级特征和高级概念之间缺乏一致性,这被称为语义鸿沟。CBIR系统最重要的挑战之一是如何弥合这一语义鸿沟。

1.2.2 Computational Cost

在CBIR系统的上下文中,我们将计算成本定义为用户提交查询和CBIR系统检索结果之间经过的时间。除了令人满意的检索结果外,系统还应在合理的时间内向最终用户提供结果。文献中提出了几种降低图像检索计算量的方法。大体上,这些方法分为以下两类:
•第一类包括旨在降低特征向量维数的方法,这反过来又会在相似性检索的距离计算过程中降低计算成本。
•第二类包括旨在从可用特征中选择最重要特征或特征组合的方法。