介绍:

与前方车辆保持足够的间隔是安全驾驶的关键。虽然LIDAR和RADAR传感器可用于测距,但出于成本考虑以及缺乏这些传感器的庞大车辆基础(尤其是在发展中地区),仍需要低成本但坚固耐用的替代产品。为此,我们展示了FarSight,该系统可使用安装在挡风玻璃或仪表板上的智能手机执行车辆测距。 FarSight使用智能手机的摄像头识别并在前方车辆周围绘制边界框,并以此为基础进行测距。与以前的基于智能手机的工作不同,FarSight不依赖任何基础设施支持(例如标准宽度车道标记),并且可以与多种类型的车辆混合使用,这两者都是发展中地区的特征。我们开发了一种用于车辆检测和跟踪的新型混合方法,该方法通过将基于深度神经网络的车辆检测与基于视觉的对象跟踪以流水线方式相结合来平衡准确性和速度。我们还设计了数据增强技术来提高车辆检测的效率,从而增加测距距离。我们证明,FarSight在白天和晚上都可以准确地进行测距,并且可以达到90 m的距离。我们已经将FarSight实施为Android应用,并已在各种手机上对其进行了测试。此外,我们介绍了基于FarSight构建的两个基于测距的应用程序

在本文中,我们考虑了估计车辆之间的距离的问题。具体而言,后方车辆正在寻找到前方车辆后方的距离的估计。为了确保广泛的适用性,包括世界上资源紧张和混乱的发展中地区,我们提出了一种基于风挡安装的基于智能手机的系统FarSight,以进行测距。图1显示了FarSight的系统概述以及后置摄像头视图。我们的工作有别于以前的工作,既有基于专用传感器的工作,也有基于智能手机的工作。与前者不同,为了保持较低的成本,FarSight仅依赖于摄像头和智能手机中的其他传感器,并且不使用昂贵的专用硬件(如LIDAR和RADAR)(在第7节中,我们阐述了仅使用LIDAR的技术挑战)基本事实。)。与后者不同,包括使用智能手机的摄像头进行测距的最新著作[4,55](我们在本文中将与之进行比较),FarSight并不假定车道流量具有已知的车道宽度,并且可以适应异构车辆的测距2轮,3轮等车辆,而不仅仅是在变化的照明条件下行驶的车辆。
FarSight的基本方法很简单:我们使用智能手机的摄像头视图在前面的车辆周围画一个边界框,确定车辆类别(例如,两轮车,轿车,SUV等),然后根据边界框的大小(以像素为单位)以及已识别车辆类别的估计大小(以米为单位)估算范围(以米为单位)。尽管这种方法很简单,但是在没有车道标志和异构车辆的情况下确保准确的测距以及仅通过智能手机实现解决方案仍会带来许多挑战,这是本文的重点。我们考虑了三大技术挑战。首先,移动带宽限制使我们无法在智能手机本身上本地处理相机图像,而不是将其发送到云中。这是具有挑战性的,因为智能手机的处理能力有限(尤其是低端智能手机,价格在100-200美元之间,缺乏处理能力)与深度中性网络(DNN)的处理要求不符。视觉任务的选择技术。 FarSight设计为即使在由于框架不兼容问题而导致智能手机中的GPU不存在或无法使用的环境下也能正常工作。但是,在第8节中,我们介绍了GPU可用时(包括低端非Nvidia GPU)的加速结果。其次,基于视觉的对象检测通常在高质量图像上进行训练。但是,在我们的环境中,要测距的车辆可能只能提供遥远的视野,例如,如果我们遵循两秒钟的规则,则当我们的速度为40 Kmph且距离为33m或更大时,车辆将在22m或更大的距离之外时速为60时。因此,在智能手机的摄像头捕获的图像中,车辆可能仅跨越几十个像素,这使其很难被检测到。第三,该解决方案应该对环境变化具有鲁棒性。它应该对道路基础设施做出最小的假设。特别是,它不应该假定存在行车道和有序的交通流;实际上,发展中地区的现实情况是,通常没有车道标记,而且即使在有车道标记的地方,车辆也跨在车道上。而且,该解决方案应适应发展中国家常见的异构车辆类型,包括2轮,3轮等。我们简要介绍了旨在解决上述挑战的FarSight的主要技术要素。这些也代表了我们的主要贡献,并指出了FarSight与以前的工作有何区别。

首先,尽管事实证明基于DNN的模型对诸如目标检测之类的任务具有很高的准确性,但它们的计算成本却很高。 因此,FarSight采用了一种自适应混合方法,该方法可对前物体(车辆)周围的包围盒进行准确但不频繁的基于DNN的检测,而从一帧到下一帧的包围盒的计算成本较低。 检测和跟踪之间的切换(反之亦然)是根据是否存在重大变化而自适应的场景。这种混合方式使FarSight在Lenovo Zuk Z2智能手机上使用CPU时支持15 fps的帧速率,而采用基于DNN的纯方法在CPU上运行时则为2.5 fps。其次,我们用于识别和绘制摄像机视图中所见车辆周围边界框的基于DNN的方法的准确性主要取决于训练数据。为此,我们采用了一种数据增强方法,该方法需要转换可用的训练数据以更好地表示FarSight在实践中遇到的情况,例如,即使所有训练数据都对应于向上的方向,也可以生成前方车辆的远景视图,近距离的意见。借助这种数据增强功能,FarSight能够在最远90 m的距离上执行测距,而没有它,则无法检测到25-30 m以上的车辆。我们在可控的环境中以及使用我们在大城市中收集的实际交通图像[33] 1以及从公共数据集中提取的数据(例如KITTI数据集[16])来评估FarSight。我们评估了它在不同类型的车辆(例如小汽车还是两轮车)和不同的光照条件(明亮的阳光,阴影和弱光)下的性能。虽然KITTI数据具有测距的地面真实性,但对于我们收集的数据,我们使用了我们为试图建立地面真实性而构造的手持式LIDAR加激光指示器单元。我们发现FarSight在90m的距离内都非常准确。我们还展示了FarSight的2种应用程序:(1)TooClose,当用户尾随时,它会发出警告,即,保持他们的速度间隔太小;(2)GetMoving,当前方车辆启动时,向用户发出警报。再次移动(例如,从红色变为绿色的交通信号灯)。总而言之,我们的主要贡献是基于智能手机的,具有成本效益的,坚固的车辆测距系统FarSight,该系统使用摄像头传感器,在使用智能手机的CPU和高达25 fps的情况下,能够在15 fps下有效地在变化的照明条件下进行准确的测距使用GPU的fps。鉴于其设计,我们认为FarSight提供了一种实用的方法来改造庞大的已安装车辆基础,这些车辆在发达和发展中地区都缺乏测距能力。。

2 RELATED WORK

汽车测距是一个经过充分研究的问题领域。 实际上,在这方面的工作几乎和汽车本身一样古老。 例如,[30]报告了一个多世纪前的1904年德国在这方面的专利。 广义上,测距是基于(a)信号的飞行时间测量之一,可以是RF,IR或声学; 或基于计算机视觉的方法

Time-of-flight based ranging:

这些年来,已经设计和制造了许多汽车雷达系统[1、15、31、46]。但是,出于成本原因,这仍然是一个小众特征。使用LIDAR,红外(IR)信号的波长要短得多,这意味着它可以比RADAR解析更精细的细节,例如,构建用于自动驾驶的3D模型。然而,它们的高成本(100-1000美元)限制了其采用。在努力生产低成本的激光雷达[6]的同时,也有积极的研究用廉价的摄像头替代激光雷达[49]。而且,LIDAR测量可能会非常嘈杂和不确定,因为例如,很难确定范围测量是对应于目标车辆(如果是,是车辆的哪个部分)还是某个其他物体,如第7节在水下环境中,声波测距通常以SONAR的形式使用。无线应用包括室内定位[41,48]和短程测距[40] [34],这些都涉及主动传输

Vision-based ranging:

第二种广泛的测距方法是基于使用相机的图像投影。 这个想法是使用简单的几何形状,根据投影到相机图像平面上的图像尺寸来计算已知尺寸的对象的距离。 这种方法的两个挑战是能够在可能混乱的场景(例如,繁忙的道路)中描绘物体,并知道物体的尺寸。 一种方法是假设有车道的交通流,其中车道的宽度是已知的,因此可以基于汽车占用的车道宽度的比例来估算汽车的宽度[4,18]。 但是,问题是,在发展中地区,道路通常没有标定车道或标准宽度的车道,即使在有车道的地方,车道也可能不是标准宽度,或者交通量可能与车道不符(例如, 车辆可以跨越两条车道)。

我们的工作:FarSight既针对发展中地区,也针对发达地区,仅使用智能手机即可实现车辆测距,而无需其他硬件。 与先前的工作相比,FarSight的三个新颖元素是:(A)在非车道交通中的异构车辆环境下的稳健测距;(B)混合型车辆识别和跟踪方案,该方法通过基于DNN的检测以更便宜的跟踪方式进行流水线化, 并可靠地估算出感兴趣的区域,以及(C)进行数据增强以显着增加测距距离。

当向人们显示车辆的图片时,即使没有任何线索(例如车道标记或摄像机的安装知识),他们也可以估计距摄像机的距离。 我们认为,实现这种鲁棒性的关键在于设计一种仅针对车辆的技术。 我们的方法如下。 如图2a所示,考虑一下位于用户车辆前方的车辆。 在以下情况下,我们可以使用单个摄像头估算与车辆的距离:(a)我们可以可靠地测量前方车辆图像的宽度wpixel s(以像素为单位),并且(b)我们知道实际宽度, 车辆的wmeter s(以米为单位)。 使用简单的三角函数(参见图2b)并假设有针孔相机模型,我们可以证明:
image.pngimage.png
其中d是使用基于宽度的测距获得的范围估计,θ是相机的水平视场,Xmax是相机图像的宽度(以像素为单位)。 注意,这种测距方法不依赖车道标记或其他基础设施元素。 为了估计wmeter s,我们为车辆类型建立了分类器,分类为2轮,3轮(自动人力车),轿车,SUV,掀背车,公共汽车和步行者。 由于车辆类别内的宽度范围相对较小,因此我们能够基于先验知识为检测到的类别查找宽度。 为了确定Wpixel,我们使用对象检测技术确定一个紧密的边界框。 车辆分类和边界框检测在感兴趣的范围内带来了计算成本和准确性方面的挑战。 我们将在接下来的两个小节中概述这些挑战以及FarSight的解决方案。

7 EVALUATION

我们采用三种方法评估FarSight:

1. Dashcam videos:我们使用挡风玻璃安装的智能手机从印度一个大城市的100公里驱动器中收集视频和其他传感器数据[33]。 如图1所示,智能手机的位置恰好在车辆后视镜下方,并且不会遮挡驾驶员的视线。 我们以1920x1080的分辨率和25 fps的平均速度录制了FullHD视频。 相机的水平视场为60度。 为了确定测距的基本原理,我们使用了一个单价为129美元的LIDAR-Lite 3 LIDAR装置[5]。 但是,我们发现基于单个LIDAR的这种测距非常嘈杂,如图7所示。其原因是,即使是轻微的角度变化(例如由于车辆的晃动),也可能将LIDAR的激光脉冲直接引向整个 不同的目标3。 图7中的峰值主要是由于LIDAR引起的,有时它指向场景中的其他对象,例如树木和远处的车辆,而不是前面的车辆。为减轻此问题,我们将激光指示器用胶带固定在激光雷达装置上,并且两者都已完美对准。 在测量过程中,我们检查激光指示器的点是否落在被测距车辆的后部,并且仅记录相应的LIDAR测量值。 尽管如此,基于LIDAR的测距仍然具有挑战性,因此我们将其视为测量的替代方法,而不是基础事实(尽管为了便于说明,我们将其称为基础事实)。
2. KITTI data set :这是一个旨在促进自动驾驶研究的公共数据集,其中包括发达地区的6个小时数据。 就我们的目的而言,相关的数据子集属于“道路”类别,其中包括来自多个驾驶会话的摄像机记录,以及使用Velodyne激光扫描仪[11]以10-100 Hz的采样率获得的测距距离的地面真实情况。
3.受控实验:除了使用上面提到的路况数据外,我们还在静态环境中进行了受控实验,在静态环境中,使用卷尺确定了地面真实情况。 这种启用的场景在道路上难以再现(例如,相对于两轮车,距离为40m,这在KITTI数据集中是不存在的,并且即使在行车记录仪设置中也很难获得地面实况) 激光指示器的帮助)。