摘要：

大多数自动驾驶汽车都在昂贵的传感器上构建其感知系统，例如LIDAR，RADAR和高精度全球定位系统（GPS）。但是，相机可以以较低的成本提供更丰富的感测，这使它们成为更具吸引力的选择。基于单眼视觉的驾驶辅助系统（DAS）已逐渐成为研究热点，基于单眼视觉的车距估计是DAS中的一项重要技术。现有的基于单眼视觉来估计车距的方法仍然存在约束，例如距离较大时精度较低，不同类型车辆的精度不稳定以及严重阻塞车辆的距离估算性能明显较差。为了提高测距结果的准确性和鲁棒性，本研究提出了一种基于3D检测的单目视觉端到端车距估计方法。通过3D检测方法获得车辆的罕见视点的实际区域和图像中的相应投影区域。然后根据摄像机投影原理建立面积距离几何模型以恢复距离。我们的方法通过测试真实计算机视觉基准KITTI上提供的测试集数据，显示了其在复杂交通场景中的潜力。实验结果比现有的方法具有更好的性能，而且被遮挡的车辆测距结果的准确度可以达到约98％，而不同视角的车辆之间的准确度偏差小于2％。1

I. INTRODUCTION

在DAS的背景下，车距估计是众多安全关键应用中的关键组成部分。车辆距离估算方法包括基于传感器的方法，基于视觉的方法以及多个传感器的组合，例如结合了RADAR和视觉传感器的方法[8]，[9]，[10]，或结合了摄像头和激光测距仪[42]。后者利用每个独立系统的优势来实现精确的测距。基于传感器的系统主要使用雷达，激光雷达和其他有源传感器[12]来检测周围环境。该系统可以提供目标车辆的准确距离信息。然而，这些传感器的高成本和收集关于目标车辆的数据的困难仍然是要解决的关键问题。通常，基于视觉的系统可以大致分为立体视觉和单眼视觉。立体视觉[18]，[19]使用立体图像对进行立体匹配并生成视差图，然后获得目标车辆的深度信息，从而可以恢复目标车辆的距离信息。远程目标车辆的计算更加直观，准确。然而，由于校准和两个相机之间的匹配的复杂性，立体视觉系统表现出低效率，需要较长的执行时间和相当大的计算复杂性。单眼视觉[20]，[21]没有上述立体视觉问题。由于单眼视觉具有成本低，结构简单，适用范围广的优点，因此比其他系统更适合嵌入DAS。单目视觉辅助驾驶系统[22]结合了视觉系统和辅助驾驶系统的优点，不仅可以有效地控制实时性能，而且可以应用于现代车辆的驾驶场景，以确保驾驶的安全性。因此，单眼视觉-DAS的重要组成部分之一，即基于单眼视觉的车距估计，已逐渐成为越来越多研究者关注的方向。但是，现有的基于单眼视觉的车距估计方法仍然存在精度低，长距离测量结果误差大，应用场景范围狭窄等问题。
单眼视觉距离估计方法可以大致分为相对深度估计和绝对距离估计。相对深度估计方法[23]，[24]主要输出深度图来表示整个图像的深度变化，并使用不同的灰度值来表示图像中每个像素的深度。最后，我们可以提取目标车辆的距离信息。但是，这种获取距离信息的方法只能得到目标车辆与摄像机之间的相对关系，而无法获得目标车辆在交通场景中的绝对距离（以米为单位）。此外，在交通场景中，冗余信息包含在深度图（例如天空，路灯，道路标志和路边的树木）中，因此降低了估计目标车辆距离的效率。文献[25]提出了一种绝对距离估计方法，其中可以获得前方车辆的绝对距离值。然而，基于单眼视觉的估计绝对距离估计方法都使用车辆检测方法来提取所需的车辆投影信息，然后估计绝对距离值。基于绝对距离估计的现有物体检测可以分为基于2D检测和基于3D检测。基于2D检测的方法[1]，[4]，[28]应用2D检测技术[26]，[27]，[29]来检测图像中的物体并定位物体候选区域，物体的信息为以2D边界框或2D蒙版表示，通过使用这些2D框或2D蒙版，我们可以提取所需的信息（例如，车辆的宽度，高度，投影区域以及图像中的位置或关键点），并完成距离的估算车辆。因此，2D检测器的性能是影响最终测距精度的主要因素。
已经提出了许多高精度的二维检测方法。为了提高检测效率和实时性能，[45]提出了一种融合视觉和激光雷达点云信息的实时车辆检测算法。目前，流行的高性能2D对象检测器[14]，[16]的检测效果通过2D边界框指示目标车辆在图像中的位置和轮廓形状。尽管最近的研究表明，对大量物体类别的2D检测表现出良好的性能，但是在许多实际应用中仅使用2D边界框识别物体是不够的，但是智能驾驶测距系统就是一个例子。 2D边界框包含大量的冗余信息，这些信息无法反映车辆的原始3D效果，如图1（a）所示。它无法获取目标车辆的详细有价值的信息。当使用车辆的投影信息来估计距离时，投影信息的物理定义与实际信息的物理定义不一致。因此，在估计距离中发生误差，并且测距精度降低。在文章[3]，[4]中，提出了一种投影几何模型，以使用通过实例分割方法[29]获得的投影面积来估计目标车辆距离。与以前的方法相比，车辆可以获得更详细的投影轮廓，并且减少了冗余。然而，使用该方法获得的2D掩模既不能详细地分割车辆的每个部分的轮廓形状，也不能在实际场景中反映车辆的立体姿势。当使用投影区域建立距离估计模型时，不可能确认所选车辆的投影信息是否呈现与实际车辆信息的对应投影关系。因此，在距离估计中使用2D投影信息会产生相当大的绝对误差。但是，车辆是带有独特零件的刚性物体。如果要准确地估计车辆的距离值，获取车辆的三维信息非常重要。
尽管许多论文提出了基于单眼视觉的距离估计方法，但是这些方法仍然存在几个主要问题，可以概括如下：1）没有考虑车辆的真实信息和投影信息之间的对应投影关系。因此，不正确的投影信息会导致测距结果的误差。 2）由于基于2D检测的距离估计方法不能清楚地分割车辆的各个部分，因此，在距离估计的几何模型中输入的错误的车辆信息导致距离不准确。 3）基于3D检测的距离估计方法没有充分利用照相机投影原理，导致用于估计距离的数学方法的适用性不高。
为了解决这些问题，我们改进了[6]中的车距计算方法，并利用了深度卷积神经网络和KITTI数据集[11]的优势来训练3D检测网络。车辆及其投影3D边界框的实际尺寸可以通过3D检测网络获得；因此，可以获得车辆的实际信息和投影信息。为了准确估计车辆的绝对距离，我们遵循相机投影的原理建立了一个区域距离几何模型。将上面提取的车辆信息用作模型的输入，最后，通过测距模型获得车辆的距离值.

综上，为解决上述问题，我们提出了一种改进的距离估计方法。本文的主要贡献概括如下：
1）本文利用3D检测的优势对图像中的投影车辆的各个部分进行了清晰的分割，从而可以准确地提取所需的车辆投影信息，并且可以保证图像中获得的车辆信息与实际车辆信息之间的投影关系是一致的。
2）基于摄像机投影原理，建立了一个面积-距离几何模型，该模型利用了车辆投影后方面积与车辆实际后方面积之间的投影关系。基于该模型，推导了用于估计各种类型车辆的距离的数学公式。
3）为了提高距离估计系统的效率，我们利用深度学习网络和端到端框架，提出了一种基于单眼视觉的端到端距离估计框架。
4）为了更详细地评估测距方法的性能，我们将测试集进一步分为三个测试子集。本文使用三个不同的子集从不同方面验证距离估计系统。实验结果表明，不同距离范围内的测距误差明显降低，被遮挡的车辆测距结果的准确度可以达到98％左右，而不同视角车辆之间的准确度偏差小于2％。

本文的其余部分安排如下。第二部分回顾了到目前为止距离估计研究领域中的最新技术和相关工作。第三节主要介绍测距方法的总体设计思想和距离估计系统中各个独立模块的实现方法。第四部分介绍了实验环境和测试结果，它们显示了整个系统的准确性和鲁棒性以及独立模块的可靠性。最后，第五节介绍了结论和未来的工作。

II. RELATED WORK

近年来，已经开发了几种方法来基于单眼估计车辆的绝对距离视力。由距离估计系统建立的几何模型可以分为三种类型。第一类涉及基于几何关系得出模型。在[1]，[30]中，使用摄像机模型中车辆的几何位置关系来推导图像坐标系和世界坐标系中关键点之间的对应关系，并建立了测距模型以实现车辆范围。这种类型的方法需要精确测量相机的方位角和仰角。否则，将大大降低距离测量的精度，并且难以精确地测量移动车辆上的摄像机的仰角。第二类基于数学回归建模方法。例如，文章[31]利用不同标准距离及其在图像中的位置之间的对应关系来构建回归模型并测量距离。 [46]也使用拟合回归的思想，该文结合摄像机获取的车辆图像信息来训练距离回归模型，以完成距离估计任务。但是，这种方法需要收集大量的训练数据，然后分析并构建回归模型。这将增加距离估计的复杂性并降低其效率。第三类方法基于相机成像模型。在[25]，[43]中，使用车辆的宽度来测量距离。这些方法仅适用于行驶中的车辆在前方的情况。当目标车辆不在正前方时，投影车宽部分与实际车宽不一致。如果忽略此问题，距离估计的鲁棒性和准确性将降低。
根据不同的投影原理，单目视觉测距方法可以分为两类：基于逆透视映射（IPM）原理的距离估计和基于透视投影原理的距离估计。第一种方法[1]，[31]使用IPM投影原理来恢复目标车辆的绝对距离值。首先，将原始图像转换为鸟瞰图（鸟瞰图），并恢复俯视角的路面信息。然后，将转换后的IPM图像用于估计目标车辆距离。然而，这种方法有两个缺点：1）所需的亮度相对较高，因为当所获取的图像的亮度低时，检测系统的性能将降低并且距离估计的精度将降低。 2）当原始图像转换为IPM图像时，其大小将发生变化，从而IPM图像中某些目标车辆的信息将会丢失，这限制了系统的测距范围。
为了避免图像转换过程中信息丢失的问题，提出了一种基于透视投影原理的几何模型来估计目标车辆的绝对距离。 Bao等。 [20]提出了基于车辆的平均宽度和车辆的GT距离的线性关系模型，以实现单眼视觉测距。黄等。 [32]提出了一种基于摄像机投影原理和目标车辆与图像中消失点之间的位置关系来测量目标车辆纵向距离的方法。提出了一种基于投影原理的距离估计方法[33]，该方法通过使用通过获得的车辆宽度信息来实现车辆检测方法，该方法还考虑了两种道路环境：带和不带车道标记。然而，前述方法以2D框的形式在图像中表示目标车辆的位置和形状。这种表示方法无法获得车辆的更多详细信息，并且将包含许多冗余信息。黄等。 [3]，[4]提出了一种基于通过车辆实例分割获得的投影面积来计算目标车辆的距离值的方法。与仅使用2D盒子信息（即车辆宽度，高度和位置）的测量方法相比，它们的方法大大减少了冗余信息并提高了测距精度.
尽管基于实例分割的2D蒙版可以获得车辆的详细投影轮廓，但总体测距思路仍然是基于2D检测信息的车距估计，这会导致一些问题，例如车身的各个部分的轮廓形状没有描述车辆和车辆的立体姿态，也没有清楚地显示车辆投影和实际信息之间的关系。因此，直接将2D投影信息用于距离估计会导致相当大的误差。
现代物体检测方法的发展已经很先进。近年来，已经提出了许多基于单眼视觉对象检测的方法。根据不同的可视化效果，可以轻松地将这些方法分为两类，即基于2D [17]，[29]和3D [6]，[7]的检测。 2D检测方法不能提供实际环境中所需的所有信息，而只能显示图像中对象的位置，大小和分类。尽管现有的2D检测方法的检测结果非常好[40]，但它们不能反映物体的3D姿态。此外，不可能分割对象的每个部分的轮廓形状。在现实世界中，对象具有3D形状。大多数实际应用场景都需要3D信息，例如对象的长度，宽度，高度和方向角。在自动驾驶的应用场景中，获取图像中车辆的3D形状和信息至关重要。因此，3D检测是当前的研究热点。端到端模型架构是车辆距离估计模型的关键[15]。近年来，深度学习技术和相关端到端技术的发展已广泛应用于自动驾驶[38]，[39]。为了利用3D检测和端到端框架的优势来解决基于2D检测的车距估计方法的缺点，我们提出了一种基于摄像机投影原理的面积距离端到端测距几何框架进行估计车辆之间的距离。

III. SYSTEM MODEL

A. System Overview

2D检测测距方法中存在问题的主要原因是未考虑车辆的3D立体姿态。在实际的交通场景中，目标车辆是立体声的。如果对其进行了正则化，则可以用一个真实的3D矩形框来表示，并且车辆的各个部分将被清楚地划分。因此，车辆的投影部件在不同的驾驶状态下，应该表现出与实际场景一对一的投影关系。然而，如图1（a）所示，由2D盒提供的车辆投影信息没有表现出与实际车辆信息的对应投影关系。如果认为投影关系相同，则使用该投影关系进行距离估计会增加测距结果的绝对误差.

此外，在实际交通情况下的二维检测方法还存在严重阻塞和长途车辆召回率低的问题。因此，我们无法获得被遮挡的和长途车辆的投影信息。这种情况导致整个测距系统的范围和适用性受到某些限制。这个问题在实际应用中至关重要。所提出的3D检测方法可以解决所拥有的2D检测方法的问题。它不仅可以确保检测结果的准确性并提高召回率，而且可以获得车辆的3D立体表示。
综上所述，我们利用3D检测的优势，基于摄像机投影的原理建立了一个区域距离几何模型，以恢复车辆之间的绝对距离。系统框架如图2所示。首先，RGB图像是经过训练的车辆3D检测网络的输入。然后，我们可以通过3D检测网络获得车辆的实际尺寸和车辆投影的3D边界框。随后，我们使用车辆实际尺寸的宽度和高度以及3D投影框来计算车辆后部的实际和投影面积。最后，根据摄像机投影原理，利用面积投影关系建立面积-距离几何模型，以估计车辆之间的距离。提出的总体距离估计系统是一个完整的端到端测距框架，该框架结合了对象分类，对象3D框和对象绝对距离值。它不仅可以加快测距速度，而且可以提高测距性能和检测结果。 3D候选区域采用[6]中3D边界框估计的设计概念和深度网络框架。我们使用预先准备的训练集来训练网络。通过训练有素的网络，可以获得车辆的稳定3D属性。然后，图像中的车辆的3D框被可视化以识别车辆的3D候选区域。

以下各节主要介绍距离估算系统的部分模块的设计，其中主要包括车辆物理尺寸的估算以及投影的3D边界框，车辆后部的实际和投影区域以及距离估算模块的设计。

B. Estimation of the Vehicle s Physical Dimension and the Projected 3D Box

通常，3D立体盒子是现实3D世界中包围目标物体的最小盒子，3D检测算法可以生成目标车辆在图像中的投影3D盒子，并且与目标车辆的投影关系是相对应的。目标车辆的真实3D立体盒。在自动驾驶场景中，大多数目标车辆水平放置在地面上。假设车辆在水平地面上行驶。然后，相对于水平面，仰角和横滚角可以设置为零。我们在相机坐标系下建立测距模型。 3D边界框顶点的坐标可以通过车辆的尺寸来描述。因此，可以根据物体和相机坐标系之间的转换关系以及投影原理来计算距离值。因此，通过3D检测获得目标车辆的物理尺寸为后续测距工作提供了重要基础。为了获得车辆的物理尺寸，我们在Faster R-CNN [14]网络中采用包围盒回归的原理，并在[6]中采用尺寸估算架构的设计思想。基于最后一层的卷积特征图，我们修改了全连接层（FC）之后的回归参数，然后使用KITTI检测数据集来训练所需的维数估计模块。最后，通过目标车辆的真实3D立体盒获得车辆尺寸信息。在自动驾驶场景中，大多数目标车辆水平放置在地面上。假设车辆在水平地面上行驶。然后，相对于水平面，仰角和横滚角可以设置为零。我们在相机坐标系下建立测距模型。 3D边界框顶点的坐标可以通过车辆的尺寸来描述。因此，可以根据物体和相机坐标系之间的转换关系以及投影原理来计算距离值。因此，通过3D检测获得目标车辆的物理尺寸为后续测距工作提供了重要基础。
为了更好地估计图像中车辆的投影3D框，充分利用了现有2D目标检测方法的经验和优势[34]。图像中的车辆投影的3D框是根据透视投影的原理和几何约束来估算的，该几何约束是由车辆3D框和2D检测窗口在视觉外观上紧密匹配这一事实造成的。

C. Extraction of Projected and Actual Areas at the Back of the Vehicle

现有的测距研究表明，基于车辆后部区域的投影关系建立的几何模型可以解决投影关系不清楚的问题，并避免了在使用其他车辆信息进行测距时遇到的瓶颈。例如，使用车宽投影关系来测量距离的方法更适合于前车。由于非前排车辆投射的车辆宽度轮廓可能会倾斜和扭曲。如果按照原始计算投影关系，则整体测距精度将降低。如果不考虑这种类型的车辆，那么测距系统的应用范围将会缩小。类似地，当使用高度投影关系时，也会出现相同的问题。选择高度值时会产生瓶颈，因为非前方车辆矩形框的左右高度值可能会不同。总而言之，我们使用车辆后部区域的投影关系来建立测距模型，该模型可以应用于具有不同观察角度的车辆。
在第III-B节中，我们获得了图像中的车辆及其投影的3D框的物理尺寸（长度，宽度和高度）。在此基础上，我们可以进一步计算车辆后部的投影（Svbp）和实际（Svba）面积，其中Svba =高度×宽度。

D. Distance Estimation Module Design

根据摄像机投影的原理和目标车辆的面积投影关系，我们首先使用车辆后部的投影面积，车辆后部的实际面积以及摄像机的焦距（以像素为单位）建立距离估算的投影几何模型，如图3（a）所示，然后使用该数学几何模型推导目标车辆距离估算的数学公式，适用于各种类型的汽车。详细的解释可以在第一，第二和第三部分中看到。

与[33]中的方法相比，车辆信息被更全面地利用，以提高距离估计系统的准确性和适用性。与文献[6]中的方法相比，测距模型的可靠性和测距公式的逻辑严谨性得到了提高，以确保计算结果的准确性。此外，我们着重于车辆的实际后部与投影的后部之间的转换关系，并且与[3]，[4]中的关系更加清晰地定义了投影关系。因此，可以提高测距的精度。

1) Principle of Camera Projection:

相机投影的原理是一种将三维坐标转换为二维坐标的方法。为了获得图像中像素的形式，我们需要转换这四个坐标系。首先，将世界坐标系中的点（Xw，Yw，Zw）转换为相机坐标系中的点（Xc，Yc，Zc），然后通过透视投影将其转换为2D平面上的点（x，y）。最后，点（x，y）以像素（u，v）的形式存储。

2) Relationship of Area Conversion Is Derived From the Relationship of Point Conversion:

3) Estimating the Physical Distance of the Target Vehicle:

IV. EXPERIMENT

提出的距离估计系统主要应用于实际交通场景中的现代汽车自动驾驶系统。我们使用安装在车辆挡风玻璃后面的摄像头来捕获图像。
Datasets: 本研究中提出的测距方法主要涉及车辆的3D检测网络，输出车辆的3D信息参数，并可用于可视化车辆在图像中投影的3D框。在提出的距离估计系统中，所涉及的网络模型在训练期间需要车辆的3D信息（即，长度，宽度和高度）。因此，所使用的数据集必须包含车辆的真实3D信息的标签。如今，KITTI数据集是计算机视觉评估数据集[11]，该数据集主要用于车辆图像分析，其中包含世界上最大的自动驾驶场景。该数据集为相机视场中的每个运动对象提供了相应的真实3D注释信息。因此，我们主要使用KITTI中的对象检测数据来训练网络，然后在KITTI检测基准上对其进行测试和验证。目前，其他基于车辆单眼视觉的大型数据集缺乏车辆3D信息的地面真实性以及我们的测距系统所需的车辆距离。因此，我们使用KITTI数据集来训练和测试所提出的距离估计系统。
我们的距离估算系统主要是为现代车辆的辅助驾驶系统设计的，因此，我们仅关注“车辆”类别。 KITTI包含一个训练集7481个图像和一个测试集7518图像。但是，KITTI测试数据集中没有GT标签，因此我们根据预设规则从KITTI训练集中分离出一部分数据作为实验的测试集。预设规则如下：首先，训练和测试集中的数据必须来自不同的视频序列。其次，所选的测试数据应满足以下条件：不同的距离范围，遮挡度和视角。根据此规则，我们使用训练集中的3981张图像作为测试集，以验证和分析我们的距离估计方法。
为了详细介绍测距方法的性能变化，我们将测试集分为三个测试子集。

针对不同的车辆距离（包括相似的视角和遮挡度）测试子集。通常会提取具有不同实际距离的车辆样本以形成此子集，该子集用于验证我们在不同距离范围内的方法的准确性。
测试具有不同遮挡度的子集（包括相似的视角和车辆距离）。在KITTI测试集中，车辆的遮挡率分为三个级别：0（可见），1（部分遮挡）和2（完全遮挡）。我们选择遮挡度大于1的车辆，将其提取为测试样本，并形成具有不同遮挡度的测试子集，以验证我们的距离估算系统对不同遮挡度的车辆的测距效果
测试具有不同视角（包括相似的车辆距离和遮挡度）的子集。我们根据国际车辆碰撞警告系统[36]中提供的定义确定了车辆的位置。车辆分为两种：前向车辆和侧向车辆。前方车辆意味着对象车辆和目标车辆的纵向中心线之间没有偏差。如果存在偏差，则目标车辆是侧向车辆。根据这些定义，我们可以组织不同视角的测试子集，并使用该子集中的数据验证我们的前方或侧面车辆距离估算系统的测距精度变化。

Dimension estimation module and 3D box estimation: 整个车辆3D检测网络是基于CNN网络框架实现的。可以通过网络输出车辆的尺寸信息，并且可以使用相机坐标系中的尺寸信息来可视化图像中车辆的投影3D框。因此，获得车辆的尺寸信息至关重要。我们训练一个深的CNN网络，修改网络的参数回归部分，然后使用该网络获取车辆的尺寸参数。为了获得我们需要的车辆参数，在训练过程中，将每个输入图像的大小调整为224×224，然后将尺寸估计模块添加到没有FC层的预先训练的VGG网络[35]。在KITTI数据集中，有许多不同的类别，例如汽车，卡车，公共汽车等。类别实例的对象尺寸分布是低方差和单峰的，例如，不同类型车辆的尺寸方差大约是几厘米。因此，我们直接使用了L2损失。尺寸估算模块如图5所示。

Evaluation metrics:
为了验证所提出的距离估计系统的准确性和鲁棒性，我们从以下几个方面对本研究中开发的测距方法进行了测试和分析：整个系统模型的验证，独立模块在整个测距中有效性的验证精度，以及可视化的测距结果。
A. Verification of the Entire Distance Estimation System Model
1) Accuracy Changes at Different Distances:
不同距离下的精度变化：在不同车辆距离的测试子集中，我们将距离范围分为三大类：0–10 m，10–20 m和> 20 m。然后，我们使用测距方法将不同距离范围内测距结果的平均误差与现有测距方法[1]，[2]，[4]进行比较，来验证整个测距系统的准确性和鲁棒性。结果在表I中提供。

方法[1]，[2]和[4]使用2D检测来实现距离估计。通过2D检测获得的车辆投影信息（例如，车辆宽度和高度）与真实车辆信息之间的投影关系呈现出偏差，这是因为2D检测结果不能反映出车辆的立体姿势，导致平均误差相对较高。
我们基于3D检测的3D边界框是基于车辆的真实3D立体框投影而形成的，因此，车辆各部分的投影信息（例如，宽度，高度和后方区域）对应于真实的车辆信息。 3D检测的检测结果比2D检测的检测结果更具立体感和准确性，可以更详细地表达车辆姿态，这使我们能够提取有关车辆的准确后向投影信息并估算车辆的距离值。
实验结果表明，我们的方法最适合在不同距离范围内进行测距。特别是，我们保证测距结果的平均误差在大于20 m的距离内小于0.5 m。此外，平均误差之间的最大偏差约为0.3 m，并且显着减小了不同距离范围之间的误差。因此，整个距离估计系统更加稳定和健壮。
2) Accuracy Changes Under Different Occlusion Degrees:
在我们收集的不同遮挡度的测试子集中，这些遮挡的车辆主要表现出部分或严重的遮挡。然后，我们使用我们的方法分别估计了两辆被闭塞车辆的绝对距离，并将结果与地面真实情况进行了比较，以验证距离估计系统对被闭塞车辆的适用性和准确性。实验结果列于表Ⅱ。
测试结果表明，所提出的测距方法可用于估计被挡车辆的距离。在不同的遮挡条件下，对于被遮挡的在25 m以内车辆，平均误差可以控制在0.5 m内。测距结果的准确性可以达到98％，效果仍然可观。

3) Accuracy Changes Under Different Visual Angles:
为了详细评估我们方法的性能并验证系统的鲁棒性和适用性，我们建立了具有不同观察视角的测试子集。前面和侧面的车辆都在测试子集上进行测试，并将估计的距离值的平均错误率与[3]，[4]，[37]中介绍的方法进行比较。结果提供在表III中。

实验结果表明，与其他方法相比，我们的方法对于具有不同视角的车辆测距结果是最佳的。前车测距结果的平均错误率小于0.5％，而侧向车辆测距结果降低到大约1.75％。与其他方法相比，观察到错误率显着下降。这个下降足以表明添加3D检测模块对于距离估计系统是有利的。另外，侧向车辆与前方车辆之间的错误率小于2％。与其他方法相比，具有不同视角的车辆之间的测距精度偏差明显减小。因此，解决了现有测距方法的不适用性局限性，并增强了系统的鲁棒性。
B. Independent Module Verification
1) Verifying the Impact of the 3D Detection Module on the Accuracy of the Entire Ranging System:
我们的测距方法的主要概念是使用车辆后方投影区域的信息来实现距离测量。因此，获得车辆后方投影面积的方法是确定距离估算结果准确性的关键。我们比较了我们的方法具有不同的距离范围，而现有方法使用的是面积距离几何模型，但没有为范围[3]，[4]添加3D检测模块。验证结果如图6所示。

[3]，[4]中提出的方法是基于实例分割获得车辆后方的投影面积，然后利用面积投影关系来实现距离估计。在现有方法[3]中，整个车辆的掩模直接用作围绕车辆后方的投影掩模。理想情况下，车辆不同部位与摄像头之间的距离应该不同。但是，现有的遮罩覆盖了车辆的所有部件，因此估算的距离并不精确。为了提高精度，我们需要在投影前对汽车零件进行分割。 [4]中开发的方法使用整个面罩的几何关系和车辆姿态角的变化来估计车辆后部的投影面积。但是，从整个面罩分割出的车辆的后方的突出部分呈现不规则的2D形状。由于不存在清晰的3D立体形状，因此很难确定车辆的分段突出后部是否对应于车辆的实际后部。因此，测距精度较低。
通过3D检测，我们可以在图像中获得车辆的立体形状，并且清楚地对车辆的所有部分进行了分割。因此，投影部分与实际部分之间的投影关系更加一致。因此，解决了上述面积投影关系的模糊问题。实验结果表明，在不同距离范围内，本方法测距结果的绝对误差最小，与地面真实情况的差异波动最小。特别是，当距离大于20 m时，与[3]，[4]中提出的方法相比，测距结果的误差会大大降低。因此，使用3D检测模块提取车辆后方信息以实现距离估计的概念是有效而准确的。
2) Verifying the Impact of the Area-Distance Geometry Model on the Accuracy of the Entire Ranging System:
我们的方法与3D检测模块进行了比较，但没有与面积投影关系建模[5]，[6]方法比较。测距结果的精度比较图如图7所示。

在[5]，[6]中开发的方法使用车辆的物理尺寸和视角信息来计算位置信息，并且基于车辆的中心点Z坐标和尺寸来计算获得的位置信息。然而，在实际的交通场景中，车辆的行驶方向是不确定的，并且目标车辆的观察到的视角是不同的。该方法不适用于估计所有车辆的绝对距离。使用此方法将导致较低的总体测距精度，较窄的应用范围以及距离估计系统的耐用性较低。利用实际面积与车辆后方投影面积之间的投影关系，建立面积-距离的几何模型，推导测距公式，实现距离估计。我们的方法可以保证距离计算公式的可靠性。
图7中的比较表明，该方法的性能优越，并且在不同距离范围内的平均误差显着降低。与方法[5]和[6]的测距结果相比，尤其是当地面真相的距离大于40 m时，我们的距离估计方法的平均误差得到了显着的减轻。而且，测距结果在不同距离之间的精度偏差最小。这一发现表明，我们的距离估计几何模型是可靠且有效的，并且总体测距的概念在逻辑和数学上都是严格的。它也适用于具有各种行驶方向的车辆，因此，提高了距离方法的鲁棒性。
C. Visualized Results
为了直观地展示我们的测距方法的优势，我们使用地面真实性来验证估计结果的准确性。结果如图8所示。

与现有方法中显示的方案相比，这项工作通过增加场景中的车辆数量，使用各种遮挡情况来改变视角。基于这种复杂场景，对提出的距离估计方法进行了测试。图8显示了在各种情况下提出的方法的可视化结果。
根据测试结果，建立基于3D车辆检测模块的测距几何模型是可行的，实验效果也非常可观。所提出的方法不仅实现了目标车辆的立体检测效果，而且保证了车辆之间估计距离值的准确性。对于距离在25 m之内的目标车辆，测距结果的绝对误差小于0.5 m。同时，在超过60 m的范围内的目标车辆的绝对误差约为0.5 m。即使是严重阻塞的目标车辆的距离估计也可以保证估计结果的准确性。

V. CONCLUSION

本研究建立了基于相机投影原理的区域距离测距几何模型。然后，利用3D检测的优势，结合车辆3D检测和测距几何模型，提出了一种基于车载单眼视觉的鲁棒车距估计方法。使用车辆3D检测方法获得目标车辆后部的实际区域和图像中的相应投影区域。然后，使用测距几何模型恢复车辆之间的绝对距离。为了全面验证系统的性能，我们从三个不同的角度建立了测试子集，并考虑了不同车辆距离，遮挡度和观察视角下的精度变化。实验结果表明，该方法不仅适应多种复杂交通场景，而且在不同驾驶条件下对车辆具有较高的精度和鲁棒性。
在未来的工作中，我们将关注更多的车辆驾驶场景（例如，高速公路，街道拐角和乡村街道），以进一步扩大距离估算系统的应用范围。此外，我们将专注于实时性能以不断改进我们的距离估算系统。

Computer Vision

福大20_Inter-Vehicle Distance Estimation Method Based on Monocular Vision Using 3D Detection

摘要：