摘要

我们提出了一种使用立体图像自动驾驶的3D对象检测和姿态估计方法。 与现有的基于立体声的方法相比,我们不仅关注汽车,而且关注所有类型的道路用户,并且可以通过整个处理链的GPU实现来确保实时功能。 这些是开发高度自动化驾驶算法的必要条件。 语义信息由深层卷积神经网络提供,并与视差和几何约束一起用于恢复准确的3D边界框。 在具有挑战性的KITTI 3D对象检测基准测试中,结果表明,结果在最佳基于图像的算法范围内,而运行时间仅为大约五分之一。 这使我们的算法成为KITTI上第一种基于实时图像的方法。

介绍

估计所有其他动态对象的全运动状态是实现全自动驾驶的重要信息。 由于精确的深度信息,当前,大多数3D对象检测方法严重依赖LiDAR数据。 但是取决于LiDAR传感器的确切型号,与立体摄像机相比,存在以下几个缺点:成本特别高,但是感知距离和信息稀疏。 其次,过分依赖单个传感器是固有的安全隐患,因此具有第二个传感器可用于检测物体是有利的。
立体摄像机提供视差图像,以检测,定位和重建场景中任意形状的对象。 利用CNN获得的语义信息,可以改善基于视差的聚类,并且可以建立对象的类型。 通过使用特定于类的形状,这甚至允许对部分遮挡或截断的对象进行完整的重建。
在这项工作中,我们为各种道路使用者提供了一种实时的,基于立体声的实时3D对象检测方法。 由于估计了每个物体的置信度得分,因此这些检测可以轻松地与其他传感器(例如LiDAR或RADAR)融合。
本文的组织结构如下:下一节介绍相关工作并将其与我们的工作区分开。 在第四节中更详细地讨论对象检测之前,第三节概述了该方法。 第五部分显示了一些结果和评估,然后总结并提出了展望。

II. RELATED WORK

具有不同传感器数据的稳健环境感知是一个经过充分研究的问题。 在这里,我们简要概述了有关使用LiDAR点云和图像进行3D对象检测的相关工作。
由于LiDAR系统为3D世界点提供了很高的几何精度,因此大多数方法都使用两种传感器的组合,方法是从RGB图像生成对象建议,然后从LiDAR点云估计精确分割的边界框。杜等。 [1]提出了一种灵活的3D车辆检测管道,以将任何2D检测网络的输出与3D点云融合在一起。 Ku等。 [2]使用LiDAR点云和RGB图像来生成由区域建议网络和第二阶段检测器网络共享的特征,以精确定向3D边界框。在Schlosser等人的工作中。 [3]他们通过将点云转换为HHA图(水平视差,地面以上高度,角度)将LiDAR与RGB图像直接融合,并使用CNN处理所得的六通道RGB-HHA图像。一些方法[4]包括将点云的鸟瞰图作为附加输入,因为与深度图相比,它没有投影损失,因此可以直接生成3D投标框。梁等。 [5]将图像特征投影到鸟瞰图中,并使用连续卷积以不同分辨率将图像和LiDAR特征图融合在一起。
Shi等人没有从RGB图像生成建议,也没有将点云投影到鸟瞰图或体素。 [6]通过将点云分割为以下内容,以自底向上的方式直接从LiDAR点云生成3D建议前景点和背景。 在李等人的方法。 [7]将3D点云数据投影到2D点图中,并使用单个2D端到端全卷积网络来识别车辆边界框。 Engelcke等。 [8]在点云中使用基于投票机制的稀疏卷积层构造的CNN进行目标云检测。
其他方法[9]尝试通过使用单眼图像中2D边界框提供的几何约束来估计完整的3D 边界框。 同样,在DeepMANTA [10]中,车辆的方向,大小和关键点在汽车上的位置由CNN和2D应用3D形状匹配算法来估计车辆的3D姿态。 Xiang等。 [11]检测3D体素图案,该图案捕获对象的关键属性,包括2D图像中的外观,3D形状,视点,遮挡和截断。 Chen等。 [12]提出了一种能量最小化方法,该方法通过在地平面上假设先验来对3D空间中的候选边界框进行采样,然后通过利用语义或形状等多个特征对投影到图像平面的每个候选框进行评分。 所有这些方法的缺点是它们对所做的假设非常敏感。
令人惊讶的是,只有少数作品使用立体视觉来识别3D对象。 它们中的大多数都利用两流CNN,其中RGB通道和视差图[13]或HHA图像[14]经过两个单独的CNN分支,并在预测层之前串联在一起,其中,类别标签,边界框 使用多任务损失共同预测坐标和对象方向。 根据KITTI评估,当前最有前途的方法是Stereo R-CNN [15],它可以同时检测和关联左右图像中的对象,然后通过基于区域的光度对齐来恢复准确的3D边界框。 其次,所谓的“伪LiDAR”方法[16]将基于图像的深度图转换为LiDAR表示,并应用不同的现有基于LiDAR的检测算法。
与我们的方法相比,这些方法都无法实时提供所有其他相关道路用户的对象列表(总延迟小于100毫秒)。 但是,这是高度自动化驾驶的重要标准。