是否需要神经网络来处理所有视觉任务? 根据所开发功能的不同,感知任务也会存在差异。在环视系统中,由于鱼眼相机的有效检测范围只有20米以内,所以可行驶区域的分割就显得没那么重要。 再者相机的失明或图像的污渍检测应该在检测算法之前就对数据的有效性进行判断,而非和目标识别等功能并行输出。 再比如环视泊车场景中对车位的距离要求往往精确到厘米级别,采用神经网络进行深度估计很难达到工程要求。 是否用一块计算单元处理所有感知算法? 如果将所有子任务都放在一个神经网络中进行处理,那么有可能造成算力资源的浪费,许多硬件厂商对外宣称的芯片算力是各个计算单元的总和,如TDA4x中就包括多块DSP。从最大化资源利用角度上应该将不同算法分散部署同时运行。 是否能统一多任务网络的数据输入形式? 虽然很多视觉任务是针对单帧来处理的,但是视角可能存在差异,目标主流的环视系统中对车位线的检测是将四颗鱼眼采集的图像拼接成鸟瞰图后输入网络,而障碍物检测的视角往往是前视图形式。 4 如何用单任务识别物体和车位? 这里所说的环视感知系统的单任务仅针对神经网络部分,环视感知最关心的是3D障碍物的识别和车位的识别。我们将相机的失明检测,目标的距离估计,平面的假设方程等任务剥离出神经网络,只关心障碍物和车位的目标检测;然后统一输入数据的视角;并在车位线识别中使用检测方法取缔分割任务。 鱼眼图像中如何检测2.5D或3D的障碍物信息? 首先我们知道在感知系统中,2D框的检测基本没有太大的意义,如果无法得到车辆的朝向信息,就无法精确的计算目标车辆距离本车的实际距离。所以炼丹师们一般会考虑在2D框的基础上增加朝向角的预测是否就可以得到一个2.5D的目标形式了呢?如下图所示:以及更加端到端的做法是否可以直接回归出3D立体框呢?如下图所示:当然根据实际操作经验,直接回归3D框目前还不太稳定,不过基于2.5D的预测在加上后处理等功能已经能实现辅助驾驶中L2+的功能需求了。 障碍物的检测毫无疑问采用鱼眼图像进行处理,但是车位线的检测是否也能在该视角下进行呢? 读者可以参考这篇文章:《Real Time Detection Algorithm of Parking Slot Based on Deep Learning and Fisheye Image》。算法大意分成三步: