2.1、基于 LiDAR 的目标检测
2.2、基于单目三维目标检测
2.3、基于立体的三维目标检测
3.1、立体 RPN
3.2、立体 R-CNN
4、3D框估计
5、密集3D框队列
6、实现细节
7、实验
8、结论和进一步工作

2.1、基于 LiDAR 的目标检测

2.2、基于单目三维目标检测

2.3、基于立体的三维目标检测

提出了一种充分利用立体图像中稀疏、密集、语义和几何信息的自主驾驶三维目标检测方法。我们的方法，称为 Stereo R-CNN，扩展了 Faster R-CNN 的立体输入，以同时检测和关联目标的左右图像。我们在立体区域建议网络 (RPN) 之后添加额外的分支来预测稀疏的关键点、视点和目标维数，并结合二维左右框来计算粗略的三维目标边界框。然后，我们恢复准确的三维包围框，以区域为基础的光度比对使用左和右 ROI。我们的方法不需要深度输入和三维位置监督，但是，优于所有现有的完全监督的基于图像的方法。KITTI 数据集上的实验表明，我们的方法在三维检测和三维定位任务上都比目前最先进的基于立体的方法高出 30% 左右的 AP。

三维目标检测是自主驾驶视觉感知、运动预测和规划的重要基础。目前，大多数三维目标检测方法在自动驾驶场景中严重依赖激光雷达数据提供准确的深度信息。然而，LiDAR 的缺点是成本高、感知范围相对较短 (∼100 m) 和信息稀疏(与 > 720p 图像相比，有 32,64 行)。另一方面，单目相机为三维目标检测提供了另一种低成本的解决方案。深度信息可以通过场景中的语义属性和目标大小等来预测。然而，推断的深度并不能保证精度，尤其是对于不可见的场景。为此，提出了一种基于立体视觉的三维目标检测方法。与单目相机相比，立体相机通过左右光度比对提供了更精确的深度信息。与激光雷达相比，立体相机的成本较低，但对于具有非平凡差异的物体，其深度精度可与激光雷达相媲美。立体相机的感知范围取决于焦距和基线。因此，立体视觉具有将不同的立体模块与不同的焦距和基线相结合，提供更大范围感知的潜力。

在本文中，我们充分利用立体图像中的语义和几何信息，研究了三维目标的稀疏和密集约束，提出了一种基于立体 R-CNN 的精确立体目标检测方法。我们的方法同时检测和关联目标的左右图像使用立体 R-CNN。网络架构如图 1 所示，主要分为三个部分。

第一个是立体的 RPN 模块 (第 3.1 节)，输出相应的左右 RoI 建议。在分别对左右特征图应用 RoIAlign 后，我们将左右 RoI 特征串联起来，对目标类别进行分类，并在立体回归(3.2 节) 分支中回归准确的二维立体框、视角和维度。

利用一个关键点 (第 3.2 节) 分支仅使用左 RoI 特征来预测目标关键点。这些输出形成了用于 3D 框估计的稀疏约束(2D 框、关键点)(第 4 节)，其中我们用 2D 左右框表示了 3D 框角与关键点之间的投影关系。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图1

确保我们的 3D 定位性能的关键组件是密集的 3D 框对齐 (第 5 节)。我们没有直接使用没有显式利用目标属性的深度输入[4,27]，而是将目标 RoI 视为一个整体，而不是独立的像素。对于规则形状的物体，给定粗糙的三维边界框，可以推断出每个像素与三维中心的深度关系。我们根据图像的深度与三维目标中心的关系，将图像的左感兴趣区域的密集像素向右偏移，找到最大限度减小整个光度误差的最佳中心深度。从而形成了三维目标深度估计的密集约束。根据对齐深度和 2D 测量值，使用 3D box estimator (section . 4) 对 3D box 进行进一步校正。

本文的主要贡献如下：

一种立体 R-CNN 方法，可以同时检测和关联立体图像中的目标。
利用关键点和立体框约束的 3D 框估计器。
基于密集区域的光度校准方法，确保我们的三维目标定位精度。
对 KITTI 数据集的评估表明，我们的性能优于所有基于最新图像的方法，甚至可以与基于 LiDAR 的方法相媲美。

简要介绍了近年来基于激光雷达数据、单目图像和立体图像的三维目标检测研究进展。

2.1、基于 LiDAR 的目标检测

目前最先进的三维目标检测方法大多依靠激光雷达提供精确的三维信息，而对原始激光雷达的输入进行不同的表示。[5, 16, 28, 18, 13]将点云投影到二维鸟瞰图或前视图表示中，并将其输入到结构化卷积网络中，[5,18,13]利用多个激光雷达表示与 RGB 图像融合，获得更密集的信息。[6, 26, 15, 20, 31]利用结构化体素网格表示对 raw point 云数据进行量化，然后使用 2D 或 3D CNN 来检测 3D 目标，而[20]以多帧作为输入，同时生成 3D 检测、跟踪和运动预测。此外，[23]没有对点云进行量化，而是直接将原始点云作为输入，基于 2D 检测和 PointNet[24]推断出的截锥体区域对三维目标进行定位。

2.2、基于单目三维目标检测

[3]侧重于利用地面假设、形状先验、上下文特征和单目图像的实例分割生成三维目标建议。[21]提出利用二维盒边与三维盒角之间的几何关系来估计三维盒角。[30, 1, 22]通过预测规则形状车辆的一系列关键点，明确利用稀疏信息。通过线框模板拟合，可以对三维物体的姿态进行约束。[27]提出了一种端到端的多级融合方法，通过将 RGB 图像与单目生成的深度图连接起来来检测三维目标。近年来，提出了一种基于反向图形的框架[14]，通过图形绘制和比较，预测三维目标的位姿和实例级分割。然而，基于单目视觉的方法不可避免地存在深度信息不准确的问题。

2.3、基于立体的三维目标检测

令人惊讶的是，利用立体视觉进行三维目标检测的研究工作很少。3DOP[4]专注于通过将目标尺寸先验、grpund truth 先验和深度信息 (如自由空间、点云密度) 编码成能量函数来生成三维提案。然后使用 3D 提议来还原物体的姿态和使用 R-CNN 方法的 2D 框。[17]将结构从运动 (SfM) 方法扩展到动态目标实例，通过融合时空信息，连续跟踪三维目标和自拍照姿态。然而，上述方法都没有利用原始立体图像中密集的目标约束。

在本节中，我们将描述立体 R-CNN 网络架构。与单帧检测器 (如 Faster R-CNN) 相比，立体 R-CNN 可以对左右图像同时检测和关联二维边界框，只需稍加修改。我们使用 weight-share ResNet-101 和 FPN 作为骨干网络，提取左右图像的一致特征。从我们的训练目标设计中获益图 2，没有额外的数据关联计算。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图2

3.1、立体 RPN

区域建议网络 (RPN) 是一种基于滑动窗口的前景检测器。特征提取后，使用一个 3×3 卷积层进行下采样，然后使用两个同级全连通层对每个输入位置的目标性进行分类，回归每个输入位置的框偏移量，该位置用预定义的多个比例框固定。。与 FPN 相似，我们通过在多尺度特征图上评估锚点来修正金字塔特征的原始 RPN。不同之处在于，我们在每个尺度上连接左、右特征映射，然后将连接的特征输入立体 RPN 网络。

关键的设计使我们能够同时检测和关联目标是不同的 ground truth(GT)盒分配目标分类器和立体盒回归器。如图 2 所示，我们将左右 GT 盒的并集 (称为并集 GT 盒) 作为目标分类的目标。如果锚点与其中一个联合 GT 盒的交超并集 (IoU) 比值大于 0.7，则赋予其正标签; 如果锚点与任意一个并集盒的 IoU 比值小于 0.3，则赋予其负标签。得益于这种设计，正锚往往同时包含左右两个目标区域。我们计算目标并集 GT 盒中包含的左右 GT 盒的正锚的偏移量，然后分别将偏移量分配到左右回归。立体回归器一共有 5 个回归量: $Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图3$
，我们用 u, v 来表示 2D 的水平和垂直坐标框中心在图像空间中, w h 框的宽度和高度, 和相应的上标对应正确的图像。注意，我们对左右框使用相同的 v,h 偏移量∆v，∆h，因为我们使用的是经过校正的立体图像。因此，我们有六个立体 RPN 回归器的输出通道，而不是原始 RPN 实现中的四个。由于左右区域建议是由相同的锚点生成的，并且共享目标得分，所以它们可以自然地关联在一起。为了减少冗余，我们分别对左右 RoI 使用非最大抑制 (NMS)，然后从保存在左右 NMS 中的条目中选择前 2000 名候选框进行训练。测试时，我们只选择前 300 个候选框。

3.2、立体 R-CNN

立体回归：在立体 RPN 之后，我们有相应的左右建议对。在适当的金字塔水平上，我们分别在左右特征图上应用 RoI 对齐。将左右 RoI 特性连接起来，并输入到两个顺序的全连接层 (每个层后面都有一个 ReLU 层) 中，以提取语义信息。我们使用四个子分支分别预测目标类、立体边界框、维数和视角。Bounding Box 回归项与 3.1 节定义相同。注意，视点角度不等于物体的方向，这是不可观测的裁剪图像 RoI。一个例子是图 3 所示, 我们使用θ来表示车辆定位尊重摄像机坐标系、和β表示目标方位与摄像机之间的中心。三种车辆的方向不同，但它们在裁剪后的 RoI 图像上的投影是完全相同的。因此我们回归观点角度α定义为:α=θ+β。避免不连续, 训练目标 (sinα,cosα) 而不是原始的角度值。利用立体盒和dimension，可以直观地恢复深度信息，通过解耦视点角度与三维位置之间的关系，也可以解决车辆的方位问题。

在对 RoI 进行抽样时，如果带有左侧 GT 盒的左侧 RoI 之间的最大 IoU 大于 0.5，同时带有相应右侧 GT 盒的右侧 RoI 之间的 IoU 也大于 0.5，则我们将左右 RoI 对作为前景。如果左 RoI 或右 RoI 的最大 IoU 位于[0.1,0.5]区间，则将左右 RoI 对视为背景。对于前景 RoI 对，我们通过计算左侧 GT 盒与右侧 RoI 之间的偏移量，以及右侧 GT 盒与右侧 RoI 之间的偏移量来分配回归目标。我们仍然对左右 RoI 使用相同的∆v，∆h。对于维数预测，简单使用预先设置的维度和 ground truth 维度之间的偏差来回归。

关键点预测：除了双目框和视点角度，我们注意到投影在盒子中间的三维盒子角可以对三维盒子的估计提供更严格的约束。如图 4 所示，我们定义了四个三维语义关键点，表示三维边界框底部的四个角。只有一个三维语义关键点可以明显地投射到框的中间 (而不是左右边缘)。我们将这个语义关键点的投影定义为透视图关键点。在第 4 节和表 5 中，我们展示了透视图关键点是如何对 3D 框进行估计的。我们还预测了两个边界关键点，它们可以作为规则形状目标实例掩码的简单替代。只有两个边界关键点之间的区域属于当前目标，将用于进一步密集对齐 (见第 5 节)。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图4

我们根据 Mask R-CNN 中提出的关键点进行了预测。只有左特征图用于关键点预测。我们将 14×14 RoI 对齐的 feature map 输入到 6 个顺序的 256-d 3×3 convolution layer 中，如图 1 所示。每个层后面都有一个 ReLU 层。采用 2×2 反卷积层将输出规模提升到 28×28。我们注意到除了 2D 框外，只有键的 u 坐标提供额外的信息。为了放松任务，我们将 6×28×28 输出中的高度通道相加，得到 6×28 的预测结果。因此，RoI 特性中的每一列都将被聚合，并有助于关键点预测。前四个通道表示每四个语义关键点投射到相应 u 位置的概率。另外两个通道分别表示每个 u 位于左右边界的概率。注意，四个 3D 关键字中只有一个可以明显地投射到 2D 框的中间，因此 softmax 应用于 4×28 输出，以鼓励将一个专用语义关键字投射到一个位置。这种策略避免了透视图关键点类型 (对应于哪个语义关键点) 的可能混淆。哪对于左右边界关键点，我们分别在 1×28 输出上应用 softmax。

在训练过程中，我们最小化了 4×28 softmax 输出下的交叉熵损失，用于透视关键点预测。在 4×28 输出中，只有一个位置被标记为透视图关键点目标。我们忽略了中间框中没有明显投影三维语义关键点的情况 (例如，截断和正投影情况)。对于边界关键点，我们分别将两个 1×28 softmax 输出的交叉熵损失最小化。每个前景 RoI 将根据 GT box 之间的遮挡关系分配左右边界关键点。

4、3D框估计

在本节中，我们利用稀疏的关键点和二维框信息求解了一个粗糙的三维边界框。3D 框可以用 x = {x, y, z,θ}，分别表示 3D 分别中心位置和水平方向。给定左右二维方框、透视关键点和回归维数，通过最小化二维方框和关键点的重投影误差，可以求解三维方框。详细在图 5 中, 我们提取七从立体框和角度测量要点: $Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图5$
，分别代表左、上、右、底，左 2D 框的低边和角度关键点的 u 坐标。为了简化表示，每个测量值都由摄像机内部标准化。在给定透视关键点的情况下，可以推导出三维盒角与二维盒边之间的对应关系 (如图 5 虚线所示)。从图 5 的观点来看：

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图6

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图7

我们用 b 表示立体相机的基线长度，用 w、h、l 表示回归尺寸。共有 7 个方程对应 7 个测量值，其中 {w/2, l/2} 的符号应根据对应的 3D 方框角适当改变。将截短的边放在上面的七个方程上。采用高斯 - 牛顿法求解这些多元方程。与[17]不同的是，在求解三维位置和方向之前，我们使用单一的二维盒和尺寸，通过结合立体盒和回归维数，较好地恢复了三维深度信息。在某些情况下，少于两个侧面可以被完全观察到，没有透视键指向上 (例如，截断，正投影)，方向和尺寸是无法从纯几何约束观察到的。我们使用的观点角度α赔偿难以察觉的状态说明 (见图 3):

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图8

从二维方框和透视关键点求解，粗三维方框投影准确，与图像对齐良好，使我们进一步密集对齐。

5、密集3D框队列

左右边界框提供了目标级的视差信息，可以粗略地求解三维边界框。然而，通过将高层信息聚合到一个 7×7 RoI 特征图中，对立体盒进行回归。原始图像中包含的像素级信息 (如角、边) 由于多个卷积滤波器的存在而丢失。为了达到亚像素匹配的精度，我们提取原始图像，利用像素级的高分辨率信息。注意，我们的任务不同于像素方向的视差估计问题，在不适定区域 (SGM) 或边缘区域 (基于 CNN 的方法) 可能会遇到不连续。我们只解决了使用密集目标 patch 时三维边界框中心的视差问题，即，我们使用大量的像素测量来解决单个变量。

将物体作为一个规则形状的立方体，由第四节求出每个像素与三维边界框中心的深度关系。排除像素属于背景或其他目标, 我们定义一个有效的 RoI 左右边界之间的地区是重点和位于底部的部分 3D 盒自底部部分车辆适合 3D 盒子更紧密 (见图 1)。一个像素位于规范化协调(ui、vi) 有效左图的 RoI, 测光误差可以定义为:

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图9

其中用 $Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图10$
、 $Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图11$
分别表示左右图像的 3 通道 RGB 矢量;∆zi = zi - z 像素 i 与 3D 盒中心深度差异; b 是 baseline 长度。z 是我们唯一要解的目标变量。我们使用双线性插值来得到正确图像的亚像素值。总匹配成本定义为有效 RoI 中所有像素点的差平方和 (SSD):

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图12

中心深度 z 可以通过最小化总匹配代价 E 来求解，我们可以有效地枚举深度来找到一个最小化代价的深度。我们首先以 0.5 m 的间距在初始值周围枚举 50 个深度值来得到一个粗略的深度，最后以 0.05 m 的间距在粗略深度周围枚举 20 个深度值来得到精确对齐的深度。之后, 我们整顿整个 3D 盒使用 3D 盒子估计通过修复深度对齐 (见表 6)。认为目标 RoI 是一个几何限制, 自然我们的密集排列方法避免了不连续和病态问题立体深度估计, 并且强度变化具有很好的鲁棒性和亮度主要因为每个像素在有效的投资回报率将有助于深度估计的目标。注意，这种方法是有效的，可以是一个轻量级的插件模块，任何基于图像的三维检测，以实现深度校正。虽然三维物体对三维立方体的拟合不严格，但形状变化引起的相对深度误差要比全局深度小得多。因此，我们的几何约束密集对准提供了精确的目标中心深度估计。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图13

6、实现细节

网络：正如在中实现的那样，我们使用了五个比例为 {32、64、128、126、512} 的比例锚，三个比例为{0.5、1、2}。原始图像在短边被调整到 600 像素。对于立体 RPN，由于左右特征图的拼接，最终的分类回归层有 1024 个输入通道，而实现 FPN 时只有 512 个输入通道。同样地，我们在 R-CNN 回归头中有 512 个输入通道。在 Titan Xp GPU 上，一个立体对的立体 R-CNN 推理时间约为 0.28 秒。

训练：定义以下多任务损失：

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图14

我们使用 (·)p, r(·) 分别代表的 RPN 和 R-CNN 下标盒子，下表 box、 $Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图15$
、dim、key 分别代表立体框、视点、维度和关键点的损失。每个损失都由随后的不确定性加权。对左右图像进行翻转和交换，同时分别对视点和关键点进行镜像，形成新的立体图像。因此，原始数据集与不同的训练目标加倍。在训练过程中，我们在每个小批量中保留了一对立体音响和 512 个采样 RoI。我们使用 SGD 训练网络，权值衰减为 0.0005，动量为 0.9。最初将学习率设置为 0.001，每 5 个时代降低 0.1。我们总共用 2 天时间训练了 20 轮。

7、实验

我们在具有挑战性的 KITTI 目标检测基准上对我们的方法进行了评估。我们将 7481 张训练图像分成训练集和验证集，其数量大致相同。为了全面评估我们基于立体 R-CNN 的方法的性能，我们使用了二维立体召回、二维检测、立体关联、三维检测和三维定位指标进行了实验，并与最先进的和自消融的方法进行了比较。根据物体在 KITTI 设置后的 2D 盒高、遮挡和截断水平，将物体分为三种难度: 容易、中等和困难。

立体回忆和立体检测。我们的立体 R-CNN 旨在同时检测和关联目标的左右图像。除了评估左右图像的 2D 平均查全率 (AR) 和 2D 平均查准率( $Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图16$
) 外，我们还定义了立体 AR 和立体 AP 度量，其中只有查询满足以下条件的立体盒才能被认为是真正性 (TPs):

左侧 GT 盒的最大 IoU 大于给定阈值
右箱与右 GT 箱的最大借据大于给定阈值
所选的左右 GT 框属于同一目标

立体 AR 和立体 AP 指标共同评价二维检测和关联性能。如表 1 所示，我们的立体 R-CNN 对单幅图像的提案召回和检测精度与 Faster R-CNN 相似，同时无需额外计算就能在左右图像中产生高质量的数据关联。尽管立体 AR 的 RPN 略低于左 AR, 我们观察几乎相同左, 右, 和立体声 APs R-CNN 之后, 这表明左右图像上的一致的检测性能和几乎所有的真阳性框左边图像对应的正确肯定正确的盒子。我们还测试了左右特征融合的两种策略: 元素均值和通道级联。如表 1 所示，由于保留了所有信息，通道连接显示出更好的性能。精确的立体检测和关联为三维盒估计提供了足够的盒级约束 (第 4 节)。

3D 检测和 3D 定位：我们使用平均鸟瞰精度 (APbv) 和三维框 (AP 3D) 来评估我们的三维检测和三维定位性能。结果如表 2 所示，其中我们的方法大大优于目前最先进的单目法和立体法。具体来说，我们超过 3DOP 超过 30% 的 APbv 和 AP3d 在简单和适度设置。对于硬集，我们实现了高达 25% 的改进。虽然 Multi-Fusion 与立体声输入得到显著改善, 它仍然报告 APbv 和 AP3d 远低于我们的几何方法在适度集中。因为比较我们的方法和 LiDAR-based 方法是不公平的, 我们只列出一个 LiDAR-based 方法 VeloFCN 作为参考, 我们超越了∼10% APbv 并使用借据 AP3d = 0.5 适度集中。我们也报告评估结果中设置的 KITTI 测试表。具体表现可以在网上找到。注意，对于基于图像的方法，KITTI 三维检测基准比较困难，随着物体距离的增加，其三维性能趋于下降。从图 7 中可以直观地观察到这一现象，虽然我们的方法实现了亚像素视差估计(小于 0.5 像素)，但是由于视差与深度成反比关系，随着目标距离的增加，深度误差变得更大。对于具有显式视差的目标，基于严格的几何约束，实现了高精度的深度估计。这就解释了为什么 IoU 阈值越高，目标所属的体系越简单，与其他方法相比，我们获得了更多的改进。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图17

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图18

关键点的优点：我们使用 3D 盒估计器来计算粗 3D box，并在密集对齐后对实际 3D 盒进行校正。因此，准确的三维盒估计量对于最终的三维检测非常重要。研究关键点的好处 3D 盒子估计量, 我们评估 3D 检测和三维定位性能不使用关键点, 我们使用退化的观点来确定之间的关系 3D 框角和 2D 框的边缘, 和采用式 (2) 为所有目标约束的三维定位。如表 5 所示，关键点的使用提高了 APbv 和 AP3D 在所有难度下的性能。由于 keypoint 除了提供 2D box-level 度量外，还为 3D box corner 提供像素级约束，因此它确保了更精确的定位性能。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图19

密集队列的优点：这个实验展示了密集排列带来的显著改善。我们评估了粗三维盒 (w/o 对齐) 的三维性能，其中深度信息是通过盒级视差和二维盒大小计算得到的。即使是 1 像素的视差或 2 维框误差也会对远处的物体产生较大的距离误差。因此，虽然粗 3D 框在图像上的投影和我们预期的一样精确，但是对于 3D 定位来说，它的精度还不够。具体统计数据见表 6。在使用密集对齐恢复对象深度并简单缩放 x、y (w/ alignment, w/o 3D 校正)之后，我们在所有度量上都得到了重大改进。此外，当我们使用 box estimator (section . 4)通过固定对齐深度对整个 3D box 进行校正时，3D 定位和 3D 检测性能进一步提高了几个点。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图20

消融研究：我们采用两种策略来提高模型性能。为了验证每种策略的贡献，我们进行了不同组合的实验，并评估了检测和定位性能。如表 4 所示，我们使用 Flip 和 Uncert 来表示提议的立体翻转增强和多重损失的不确定性权重。没有花哨的东西，我们已经超越了所有最先进的基于图像的方法。每种策略都进一步提高了我们的网络性能。具体贡献见表 4。使用不确定性权重来平衡多任务损失，在 3D 检测和定位任务方面都得到了重要的改进。通过立体翻转增强，对左右图像进行翻转和交换，并分别改变透视关键点和视点的训练目标。因此，不同的投入和训练目标使训练集加倍。将两种策略结合起来，我们的方法在三维检测和三维定位任务中都取得了很好的性能 (表 2)。

Stereo R-CNN based 3D Object Detection for Autonomous Driving_weixin_36670529的博客-CSDN博客_stereo r-cnn based 3d object detection for autonom - 图21

8、结论和进一步工作

本文提出了一种基于立体 R-CNN 的自主驾驶场景三维目标检测方法。该方法将三维目标定位问题转化为一个学习辅助几何问题，充分利用了目标的语义特性和密集约束。在没有三维监控的情况下，我们在三维检测和三维定位任务上大大超过了现有的基于图像的方法，甚至超过了基准激光雷达方法。我们的三维目标检测框架灵活实用，可以对每个模块进行扩展和改进。例如，立体 R-CNN 可以扩展到多目标检测和跟踪。我们可以用实例分割代替边界关键点来提供更精确有效的 RoI 选择。通过学习物体的形状，我们的三维检测方法可以进一步应用于一般物体。
https://blog.csdn.net/weixin_36670529/article/details/100031856#3%E3%80%81%E7%AB%8B%E4%BD%93R-CNN%E7%BD%91%E7%BB%9C