应用类 - 基于计算机视觉的物体抓取识别算法的研究与实现_关捷雄 - 《Computer Vision》

上海师范2019

为了挖掘人工智能技术的应用潜力，笔者将其成功的应用了到无人零售场景。本文设计了一种物体抓取识别算法，该算法基于深度学习和计算机视觉技术，能够在目标被抓取的状态下，识别目标物体的个数和种类，可用于识别零售场景中顾客抓取的商品。它包含三个算法模块：立体匹配、物体识别和行为识别，其主要内容如下：
为了让目标物体多角度的暴露在视野范围内以获得多角度的信息源，并避免单摄像机被遮挡以至算法完全失效，本文采用了多摄像机的架设方案，设计和实现了一种快速立体匹配算法，该算法利用双目相机的对极约束条件以及动态规划，能够在线性时间内完成匹配，在多个相机之间定位同一个物体。
物体识别算法是本文的核心，零售场景需要识别出目标的种类及相应的个数，尽管目标检测算法可以实现这一目的，但是需要大量的标注成本和计算成本。本文使用弱监督学习的模型训练方案，设计了一种深度卷积神经网络和一个计数损失函数，不需要标注目标物体的位置信息，就可以识别出图像中目标物体的个数和类别。并且，笔者为这一视觉识别任务设计了一种评估指标，较传统的精确率和召回率相比它更为严格，在笔者提出的数据集下，实现了 94.6%的准确度，模型的前向时间仅需 3.87 毫秒。
行为识别采用双流神经网络，提取视频的空域信息和时域信息，识别出目标顾客在商店中做出的购买行为。最后，笔者设计了一种视频数据的自动标注算法，它利用插值算法和卷积神经网络能够准确的预测目标的标定框，大幅地降低人工标注成本。

关键词：深度学习，计算机视觉，立体匹配，图像识别，行为识别

基于计算机视觉的物体抓取识别算法的研究与实现_关捷雄.pdf