A fused network based on PReNet and YOLOv4 for traffic object detection in rainy environment
-
摘要: 为提高恶劣雨天交通环境下车辆目标检测精度,提出一种基于PReNet和YOLOv4融合的深度学习网络DTOD-PReYOLOv4,融合了改进的图像复原子网D-PReNet和改进的目标检测子网TOD-YOLOv4;将多尺度膨胀卷积融合模块和添加了挤压激励块的注意机制残差模块引入PReNet,获得的D-PReNet可更有效提取雨纹特征; 使用轻量化的CSPDarknet26代替YOLOv4骨干模块CSPDarknet53,为YOLOv4的颈部路径聚合网络模块添加复合残差块,同时采用k-means++算法取代原始网络聚类算法,获得的TOD-YOLOv4可在改善交通小目标检测精度的同时进一步提高检测效率; 基于构建的雨天交通场景车辆目标数据集VOD-RTE对DTOD-PReYOLOv4进行了验证。研究结果表明:与当前YOLO系列主流网络相比,提出的DTOD-PReYOLOv4对原浅层ResBlock_body1叠加残差块,可以更好地提取分辨率较小的特征; 对原深层ResBlock_body3、ResBlock_body4和ResBlock_body5进行裁剪,获得ResBlock_body3×2、ResBlock_body4×2和ResBlock_body5×2,可以有效降低卷积层冗余,提高内存利用率; 为PANet中的Concat+Conv×5添加跳跃连接形成CRB模块,可以有效缓解网络层数加深引起的小目标检测效果退化问题; 采用k-means++算法,在多尺度检测过程中为较大的特征图分配更加适合的较小先验框,为较小的特征图分配更加适合的较大先验框,进一步提高了目标检测的精度; 与MYOLOv4相比,精确率和召回率的调和平均值、平均精度、检测速度分别提升了5.02%、6.70%、15.63帧·s-1,与TOD-YOLOv4相比,分别提升了3.51%、4.31%、2.17帧·s-1,与YOLOv3相比,分别提升了46.07%、48.05%、18.97帧·s-1,与YOLOv4相比,分别提升了31.06%、29.74%、16.26帧·s-1。Abstract: In order to improve the detection accuracy of vehicle target in severe rainy day under traffic environment, a deep learning network DTOD-PReYOLOv4 (derain and traffic object detection-PReNet and YOLOv4) was proposed based on the fusion of PReNet and YOLOv4, which integrated the improved image restoration subnet D-PReNet and the improved target detection subnet TOD-YOLOv4. D-PReNet could extract rain streak features more effectively, since it introduced the multi-scale expansion convolution fusion module (MSECFM) and the attentional mechanism residual module (AMRM) with SEBlock into PReNet. TOD-YOLOv4 improved not only the detection accuracy of small traffic target, but also the detection efficiency, since it replaced the backbone module CSPDarknet53 of YOLOv4 with the lightweight CSPDarknet26 of YOLOv4, added CRB into PANet of YOLOv4 neck, and utilized k-means++ instead of the original network clustering algorithm. DTOD-PReYOLOv4 was verified based on the constructed vehicle target database VOD-RTE in rainy day traffic scenario. Research results show that compared with the current series of YOLO networks, the proposed DTOD-PReYOLOv4 can better extract the features with lower resolutions by superimposing RB over ResBlock_body1 in the shallow layer. It can effectively reduce the convolutional layer redundancy and improve the memory utilization, since ResBlock_body3, ResBlock_body4 and ResBlock_body5 in deep layer can be properly cropped to ResBlock_body3×2, ResBlock_body4×2 and ResBlock_body5×2, respectively. It also can alleviate the degradation of small target detection effect caused by the deepening of network layers by adding jump connection to Concat+Conv×5 in PANet to form CRB. In the process of multi-scale detection, k-means++ algorithm is adopted to allocate smaller prior boxes that are more suitable for the larger feature images, but larger prior boxes that are more suitable for smaller feature images, which further improves the accuracy of target detection. The harmonic mean value of precision and recall rate, average precision and detection speed of DTOD-PReYOLOv4 respectively increase by 5.02%, 6.70% and 15.63 frames per second compared with MYOLOv4, by 3.51%, 4.31% and 2.17 frames per second compared with TOD-YOLOv4, by 46.07%, 48.05% and 18.97 frames per second compared with YOLOv3, and by 31.06%, 29.74% and 16.26 frames per second compared with YOLOv4. 4 tabs, 12 figs, 44 refs.
-
Key words:
- intelligent transportation /
- object detection /
- YOLOv4 /
- PReNet /
- attentional mechanism /
- multi-scale detection
-
1. 基础网络
1.1 图像复原网络PReNet
图像复原网络PReNet是一种采用分阶段结构的去雨网络[7],如图 1所示,每个阶段均部署一个浅层残差网络,通过阶段间的递归计算共享网络参数,同时在各阶段内部也使用递归计算,有效缓解了堆叠式网络产生的参数冗余及过拟合问题,去雨性能良好。一个具有T阶段递归的PReNet基本结构包含fin、frec、fres和fout四部分,如图 1(a)所示,其中:xt为t阶段的去雨图像; 上一阶段(即第t-1阶段)输出的去雨图像xt-1和原始雨图y进行张量连接(Concat, C)后,将作为当前阶段(即第t阶段)的输入; fin为卷积层(Conv)和修正线性单元(Rectified Linear Units,ReLU)的联合处理; 同阶段fin的输出和上一阶段循环单元的状态st-1将作为当前阶段的输入; frec为LSTM循环模块处理; fres为5个残差块(ResBlock)的联合处理,用于提取深度特征信息; fout为卷积(Conv)处理,用于输出去雨结果。PReNet的T阶段递归展开过程如图 1(b)所示。
1.2 目标检测网络YOLOv4
2020年新发布的YOLOv4[21]是对性能已经十分优越的YOLOv3[20]的更进一步优化,实现了目标检测精度和速度的权衡,其基本网络结构如图 2所示。首先,YOLOv4在YOLOv3骨干模块DarkNet53基础上添加了跨阶段部分连接(Cross Stage Partial,CSP)结构,形成了新的骨干(Backbone)模块CSPDarkNet53;其次,引入空间金字塔池化(Spatial Pyramid Pooling,SPP)颈部(Neck)模块用于增加感受野,可在几乎不影响运行速度的同时分离出重要的上下文特征; 接着,使用路径聚合网络(Path Aggregation Network,PANet)颈部模块代替YOLOv3中的特征金字塔网络(Feature Pyramid Networks,FPN)颈部模块,从而针对不同的检测器级别从不同的主干层进行参数聚合; 最后,YOLOv4继承了YOLOv3的头部(Head)模块,采用多尺度预测来提高针对不同尺寸目标的检测性能。
2. DTOD-PReYOLOv4
基于图像复原网络PReNet和目标检测网络YOLOv4进行改进,提出一种融合了2种网络的雨天交通目标检测深度学习网络DTOD-PReYOLOv4,该网络由改进的雨天复原子网D-PReNet(Derain-PReNet)和改进的交通目标检测子网TOD-YOLOv4(Traffic Object Detection-YOLOv4)构成,如图 3所示。当网络输入为雨天环境下含有多个车辆目标的交通场景图像时,先通过D-PReNet进行雨天图像复原,再通过TOD-YOLOv4进行分类回归,最终输出完成车辆目标检测的交通场景图像。
2.1 图像复原子网D-PReNet
一个具有T阶段递归的图像复原子网D-PReNet基本结构是在已有PReNet基础上添加了fmsecfm和famrm而来; fmsecfm为建议的MSECFM处理,介于fin和frec之间,将同阶段fin的输出作为输入; famrm为建议的AMRM处理,介于frec和fres之间,将同阶段frec的输出作为输入。D-PReNet结构如图 4所示,旨在不丢失图像边缘信息的前提下增强偏暗背景中的车辆细节特征,从而为下一步在交通目标检测子网TOD-YOLOv4中进行高质量的目标检测奠定基础。
原始PReNet中,采用普通卷积块提取的雨纹特征图存在感受野线性增长的问题,导致复原图像较易出现严重的细节信息丢失。为使线粒、方向具有多样性的雨纹特征获得不同程度的感受野,D-PReNet中建议的多尺度膨胀卷积融合模块拥有3个具有不同尺度(大尺度9×9、中等尺度7×7、小尺度5×5)的膨胀卷积块,以使提取的特征图感受野呈非线性增长,从而尽可能多地输出较大范围的特征信息,且尽可能少地损失细节信息; 同时,为避免高频图像出现过度平滑,经过大尺度膨胀卷积的特征图将被下采样为中等尺度特征图,经过小尺度膨胀卷积的特征图将被上采样为中等尺度特征图,再依次与原先经过中等尺度膨胀卷积的特征图进行张量连接。多尺度膨胀卷积融合模块如图 5所示。
原始PReNet中,LSTM仅能学习固定长度的内部特征,对长输入序列的学习能力较弱。借鉴注意机制思想[26],将添加了SE块的注意机制残差模块引入D-PReNet中,提高神经网络的学习能力,为不同的通道特征分配不同权重,增强关键特征,降低非关键特征的冗余。注意机制残差模块如图 6所示。
2.2 交通目标检测子网TOD-YOLOv4
YOLOv4在ILSVRC 2012[27]、MS-COCO[28]等流行公共数据集上显示出了高效、强大的目标检测能力,但在对实际雨天环境下采集到的交通场景图像进行单类目标(例如车辆)检测时,精度、速度还有待进一步提高,故提出基于YOLOv4改进的TOD-YOLOv4,将原有骨干模块CSPDarknet53替换为CSPDarknet26;为颈部模块PANet添加复合残差块; 使用更优的聚类算法k-means++[29]取代原有k-means[30]。改进的TOD-YOLOv4将作为DTOD-PReYOLOv4交通目标检测子网,用于接受来自图像复原子网D-PReNet的去雨图像,最终输出更具鲁棒性的交通目标检测结果,其网络架构如图 7所示。
2.2.1 改进的骨干模块CSPDarknet26
尽管CSPDarknet53的引入显著提高了YOLOv4的特征提取能力,但在检测目标相对较小且缺乏显著特征的雨天车辆目标时,CSPDarknet53网络中过多的下采样和卷积操作不仅会使本就模糊不清的细节特征消失,还会降低网络训练速度,因此,将建议的骨干模块CSPDarknet26取代原有CSPDarknet53,网络参数在表 1中列出。其中,ResBlock_body代表残差块体,由64个1×1卷积和128个3×3卷积构成,×2代表相应残差块体数目为2。原始YOLOv4浅层中的ResBlock_body1在特征提取时感受野较小且包含背景噪声较多,故对该浅层添加叠加的残差块体ResBlock_body1×2,旨在更好地提取分辨率较小的特征; 通过试验调参,对原始YOLOv4深层中的ResBlock_body3、ResBlock_body4和ResBlock_body5进行适当裁剪(图 7),分别获得较小尺度的ResBlock_body3×2、ResBlock_body4×2和ResBlock_body5×2,旨在保持较高识别精度的同时进一步提高网络训练速度。将具有改进骨干模块CSPDarknet26的YOLOv4命名为Modified YOLOv4(MYOLOv4)。
表 1 CSPDarknet26网络参数Table 1. Network parameters of CSPDarknet26网络分层 卷积核个数 卷积核尺度 输出分辨率/pixel Conv 32 3×3 416×416 Conv 64 3×3/2 208×208 ResBlock_body1×2 32 1×1 208×208 64 3×3 Conv 128 3×3/2 104×104 ResBlock_body2×2 64 1×1 104×104 128 3×3 Conv 256 3×3/2 52×52 ResBlock_body3×2 128 1×1 52×52 256 3×3 Conv 512 3×3/2 26×26 ResBlock_body4×2 256 1×1 26×26 512 3×3 Conv 1 024 3×3/2 13×13 ResBlock_body5×2 512 1×1 13×13 1 024 3×3 2.2.2 引入了CRB的多尺度检测
在YOLOv4网络中,虽然多尺度检测的PANet模块[21]能够针对不同的检测器级别从主干模块各个层进行参数聚合,并通过上/下采样融合不同层的特征,从而使提取的信息更丰富,但在雨天环境下,目标特征通常较为模糊,且随着网络层数的加深,较小目标特征易丢失,致使小目标检测效果退化严重。为克服上述问题,通过减少网络层数轻量化原始YOLOv4中的骨干网络CSPDarknet53,并在Concat+Conv×5模块中,引入跳跃连接形成CRB,其结构如图 8所示。
图 7中,红色数字表示改进网络中参与跳跃连接的关键输出层数,分别是第39、77、80、89、100、119层。去雨后的图像经过骨干网络CSPDarknet26分别获得52×52、26×26、13×13三个不同尺度的特征图用于多尺度预测:首先,对第77层13×13的特征图进行卷积和上采样操作,将其输出与第80层26×26特征图进行张量拼接并通过CRB提取丰富的局部特征,重复卷积和上采样操作后,与第39层52×52特征图进行张量拼接并通过CRB提取丰富的局部特征,获得较大的52×52特征图,考虑较大的特征图感受野较小,故分配较小的先验框检测小目标; 接着,对第100层的52×52的特征图进行下采样操作,将其输出与第89层26×26特征图进行张量拼接并通过CRB提取丰富的局部特征,获得中等尺度的26×26特征图,分配中等尺度的先验框匹配该特征图的感受野,送入检测中等尺度的检测头(YOLO Head); 最后,将第119层13×13的特征图与第77层13×13的特征图进行张量拼接并通过CRB提取丰富的局部特征,得到较小的13×13特征图,考虑较小的特征图感受野较大,分配较大先验框检测小目标。多尺度检测能够较好地平衡不同尺度目标的检测效果,在每个检测头进行位置和类别预测之前,采用CRB进行深层特征提取,可有效缓解因网络层数加深而引起的效果退化问题。
2.2.3 聚类算法k-means++
原始YOLOv4使用k-means算法,以重叠度作为分析指标,在训练集中所有样本的真实框中聚类,得到具有代表性形状的锚点框宽高。以当前最流行的MS-COCO数据集为例,YOLOv4的9组锚点框宽高分别是(12, 16)、(19, 16)、(40, 28)、(36, 75)、(76, 55)、(72, 146)、(142, 110)、(192, 243)、(459, 401)pixel。k-means算法虽然快速、简单,但其初始聚类中心的选择对聚类结果有较大影响,一旦初始值选择的不合适,就有可能无法得到有效的聚类结果,因此,使用k-means++算法代替k-means算法。
与k-means算法最开始随机选取数据集中k个点作为聚类中心不同,k-means++算法则按照如下思想选取K个聚类中心:假设已经选取了k个初始聚类中心(0 < k < K),则在选取第k+1个聚类中心时,距离当前k个聚类中心越远的点会有更高的概率被选为第k+1个聚类中心。此外,通过聚类方法产生的锚点宽高与试验数据集本身关系密切,采用k-means ++ 算法针对构建的真实雨天场景交通目标数据集进行聚类,得到的9组锚点框宽高分别是(13, 11)、(23, 17)、(31, 28)、(41, 20)、(51, 33)、(63, 51)、(102, 61)、(166, 116)、(388, 244)pixel。
3. 雨天交通场景车辆目标数据集(VOD-RTE)的构建与训练
目前,鲜有针对雨天场景交通目标检测的专用数据集,广泛使用的雨天复原数据集主要包括Rain800[31]、Rain100L/Rain100H[32]、Synthetic Dataset (12 Images)[33]、Real-World Rainy Images[34]、Synthetic Rainy Image Dataset[35]和Synthetic Dataset[36]等; 广泛使用的交通场景目标检测数据集主要包括KITTI[37]、Cityscapes[38]、Mapillary Vistas[39]、BDD100K[40]、nuScenes[41]、ApolloScape[42]等,以及交通标志数据集Tsinghua-Tencent 100K[43]、GTSRB[44]等。
现雨天图像复原数据集大多都是通过虚拟雨的方式合成,同时也包括一部分真实的物理场景,但缺乏交通场景真实雨天环境下的图像复原数据集; 交通场景目标检测数据集则大多是在良好天气环境下获取,且包含交通小目标的图像相对匮乏,因此,构建一套VOD-RTE数据集,用于验证DTOD-PReYOLOv4的有效性与优越性。
由于真实雨天交通场景数据集和交通小目标数据集的获取周期长,难度大,为提高网络在真实雨天的泛化性,采用Fu等[35]建议的真实雨天渲染方法对VOD-RTE中的图像数据进行虚拟雨的合成,雨纹方向范围为[-120°, 60°],雨纹尺度大小分别为3~5的图像数目分别占总数据集图像数目的60%、30%、10%。VOD-RTE基础数据集包含两部分,第1部分数据为从长安大学校本部过街天桥上拍摄到的雨天西安市南二环中段交通场景图像数目共计900个,第2部分数据为通过互联网获取到的交通场景图像共计1 100个。采用随机裁剪、翻转、对比度调节等方式对该基础数据集做进一步扩展,得到的扩展数据集包含图像共计10 034个。图 9为VOD-RTE数据集部分示例。
选取车辆作为交通场景典型检测目标,对去雨后的交通场景图像进行手工标注,标注标签设为Car型,标注样例如图 10所示。Car型样本框标注位置信息参见表 2,样本框左上角坐标为(Xmin, Ymin)、右下角坐标为(Xmax, Ymax),Xmin、Ymin分别是Car型样本框在图像上的x、y轴最小坐标值,Xmax、Ymax分别是Car型样本框在图像上的x、y轴最大坐标值。选取VOD-RTE数据集中80%的图像用于网络训练,20%的图像用于试验验证。
表 2 Car型锚点框信息示例Table 2. Examples of car anchor box information标签名称 Xmin/pixel Ymin/pixel Xmax/pixel Ymax/pixel Car 1 312 609 417 701 Car 2 389 600 480 672 Car 3 685 549 767 612 Car 4 510 503 573 539 Car 5 521 463 572 510 Car 6 488 389 528 427 Car 7 526 381 568 409 4. 试验结果分析
4.1 网络训练环境配置与参数设置
试验平台选用Linux环境下的Pytorch框架,操作系统为Ubuntu 16.04,CPU为Intel Xeon E3-1225v6,GPU为Nvidia Quadro p4000,显存为8GB。
在图像复原子网D-PReNet中,批量(Batch Size)设为8,初始学习率设为1.0×10-3,迭代次数设为100,当迭代次数达到30、50、80时,学习率设为2.0×10-4。
在图像复原子网D-PReNet中,最大迭代次数设为50 000,动量参数设为0.949,初始学习率设为1.0×10-3,衰减系数设为5.0×10-4; 选择分步模式更新学习率,当迭代次数分别达到40 000和45 000时,将学习率降低到初始学习率的10%。
4.2 评价指标
目标检测通常以精确率P、召回率R、精确率和召回率的调和平均值F、平均精度${\bar P} $和检测速度S作为评价标准,即
P=N1N1+N2 (1) R=N1N1+N3 (2) F=2PRP+R (3) ˉP=I∑i=1PiRi (4) S=cfte (5) 式中:N1为被网络预测为对的正确交通目标数; N2为被网络预测为对的错误交通目标数; N3为被网络预测为错的正确交通目标数; I为数据集的图像数目; Pi为识别图像个数为i时的精确率; Ri为识别图像个数从i-1变化到i时的召回率差值; S为每秒处理的图像帧数,是衡量目标检测速度的重要指标; cf为完成检测的帧数计数(Frame Count); te为完成检测所流逝的时间(Elapsed Time)。
4.3 试验结果分析
为验证建议网络的性能,将从网络收敛速度、交通目标直观检测结果和平均量化检测结果三方面将DTOD-PReYOLOv4与YOLOv3、YOLOv4、MYOLOv4、TOD-YOLOv4进行评估比较。
基于建议数据集VOD-RTE训练DTOD-PReYOLOv4,损失值下降曲线如图 11所示,可以看到:前500步,训练损失值从1 900几乎直线下降到10;50 000步后,损失值进一步下降到1.0791%,因此,建议的DTOD-PReYOLOv4具有较高的训练速度,其原因是DTOD-PReYOLOv4的TOD-YOLOv4子网采用轻量化的CSPDarknet26取代了原有CSPDarknet53,有效避免了原始YOLOv4的卷积层冗余,网络训练速度得到显著提升。
基于VOD-RTE测试集,将建议的DTOD-PReYOLOv4与当前流行的YOLOv3、YOLOv4以及MYOLOv4和TOD-YOLOv4进行试验结果比较与分析。首先,选取VOD-RTE测试集中具有典型代表的1个图像作为输入,通过直观的试验结果来对上述5种网络进行比较分析,试验结果如图 12所示,表 3为对应的检测结果。可以看到:YOLOv3车辆检出数仅为1辆,存在严重漏检; YOLOv4车辆检出数有所增加,但存在较为严重的漏检和误检; 与YOLOv4相比,MYOLOv4和TOD-YOLOv4的车辆检出数均有进一步提升,但小目标漏检情况依旧严重; 结合了D-PReNet和TOD-YOLOv4的DTOD-PReYOLOv4网络漏检率降为0,获得了相对优秀的实际车辆检出效果,且对交通场景进行了较高保真度的雨天图像复原,更有助于实时监控平台对实际交通场景环境的感知。
表 3 车辆检测结果Table 3. Vehicle detection result网络 YOLOv3 YOLOv4 MYOLOv4 TOD-YOLOv4 DTOD-PReYOLOv4 车辆总数 9 9 9 9 9 检出车辆数 1 4 5 6 9 漏检车辆数 8 5 4 3 0 误检车辆数 0 1 0 0 0 进一步,表 4显示了DTOD-PReYOLOv4与YOLOv3、YOLOv4、MYOLOv4、TOD-YOLOv4的平均量化检测比较结果,显然,DTOD-PReYOLOv4的各项指标均为最优。
表 4 目标检测评价结果Table 4. Evaluation result of object detection网络 P/% R/% F/% $\bar P $ /% S/(帧·s-1) YOLOv3 35.00 76.00 47.93 45.56 32.13 YOLOv4 49.00 88.00 62.94 63.87 34.84 MYOLOv4 88.00 90.00 88.98 86.91 35.47 TOD-YOLOv4 90.00 91.00 90.49 89.30 48.93 DTOD-PReYOLOv4 96.00 91.00 94.00 93.61 51.10 与性能已经十分优越的目标检测网络YOLOv3和YOLOv4相比,MYOLOv4的各项指标均有较大提升,其中,${\bar P} $值分别提升了41.45%、23.04%,S分别提升了3.34、0.63帧·s-1。其原因是:与YOLOv4采用的CSPDarknet53相比,MYOLOv4采用了轻量化的CSPDarknet26作为骨干网络,通过对浅层ResBlock_body1叠加残差块可有效提取分辨率较小的特征,同时,对原深层ResBlock_body3、ResBlock_body4和ResBlock_body5进行裁剪获得ResBlock_body3×2、ResBlock_body4×2和ResBlock_body5×2,从而降低了卷积层冗余,提高了内存利用率,因此,通过引入轻量化的骨干网络,MYOLOv4不仅提高了检测速度,还增强了浅层网络与深层网络之间的连接,能够在小目标较多且较为模糊的雨天场景图像中提取到更加丰富的车辆目标语义信息,获得更好的${\bar P} $值。
在MYOLOv4的PANet多尺度检测Concat+Conv×5模块中添加跳跃连接形成CRB模块,就得到了TOD-YOLOv4。与MYOLOv4相比,TOD-YOLOv4的各项指标均有进一步提升,${\bar P} $值提高了2.39%。其原因在于:CRB模块可以提取丰富的局部特征,能够缓解网络层数加深引起的小目标检测效果退化问题; 同时,TOD-YOLOv4采用k-means++算法,在多尺度检测过程中为较大的特征图分配更加适合的较小先验框,为较小的特征图分配更加适合的较大先验框,进一步提高了目标检测的精度。
在TOD-YOLOv4基础上增加复原子网D-PReNet,就得到了最终建议的DTOD-PReYOLOv4,与TOD-YOLOv4相比,各项指标均有显著提高,F、${\bar P} $、S分别达到了94.00%、93.61%、51.10帧·s-1; 与目前较先进的YOLOv4相比,F、${\bar P} $、S分别提高了31.06%、29.74%、16.26帧· s-1。其原因在于:DTOD-PReYOLOv4增加了D-PReNet,在已有PReNet中引入了建议的MSECFM和AMRM,使复原后无雨图像的目标边缘特征及细节纹理特征更加丰富,有效降低了不同尺度及方向雨纹对交通小目标检测任务的负面影响。
5. 结语
(1) 为解决现有深度学习网络在雨天环境下进行交通目标检测面临的瓶颈问题,本文提出了一种融合了图像复原子网D-PReNet和交通目标识别子网TOD-YOLOv4的深度学习目标检测网络DTOD-PReYOLOv4,将多尺度膨胀卷积融合模块和添加了挤压激励块的注意机制残差模块引入PReNet,构成改进的图像复原子网D-PReNet,可更好地提取雨纹丰富的细节信息与边缘信息,降低雨纹特征的冗余性; 将复合残差块引入YOLOv4,同时用轻量化的CSPDarknet26取代原始骨干模块CSPDarknet53,构成改进的交通目标识别子网TOD-YOLOv4,可有效提升网络训练速度,提高交通目标检测效率。
(2) 试验结果表明:与现有诸多优秀网络相比,融合网络DTOD-PReYOLOv4可有效提取雨纹特征,获得更加丰富的交通目标语义信息,缓解面向交通小目标检测的过拟合问题,更适用于雨天交通场景下的目标检测,能够获得更好的目标检测精度和效率,有助于智能交通相关系统及平台的早日落地及产业化推广。
(3) 由于户外交通环境复杂多变,下一步将继续针对恶劣天气下的目标检测问题开展深入研究,提出适用于雨、雪、雾、霾、霰等多种天气环境的综合交通目标检测网络。
-
表 1 CSPDarknet26网络参数
Table 1. Network parameters of CSPDarknet26
网络分层 卷积核个数 卷积核尺度 输出分辨率/pixel Conv 32 3×3 416×416 Conv 64 3×3/2 208×208 ResBlock_body1×2 32 1×1 208×208 64 3×3 Conv 128 3×3/2 104×104 ResBlock_body2×2 64 1×1 104×104 128 3×3 Conv 256 3×3/2 52×52 ResBlock_body3×2 128 1×1 52×52 256 3×3 Conv 512 3×3/2 26×26 ResBlock_body4×2 256 1×1 26×26 512 3×3 Conv 1 024 3×3/2 13×13 ResBlock_body5×2 512 1×1 13×13 1 024 3×3 表 2 Car型锚点框信息示例
Table 2. Examples of car anchor box information
标签名称 Xmin/pixel Ymin/pixel Xmax/pixel Ymax/pixel Car 1 312 609 417 701 Car 2 389 600 480 672 Car 3 685 549 767 612 Car 4 510 503 573 539 Car 5 521 463 572 510 Car 6 488 389 528 427 Car 7 526 381 568 409 表 3 车辆检测结果
Table 3. Vehicle detection result
网络 YOLOv3 YOLOv4 MYOLOv4 TOD-YOLOv4 DTOD-PReYOLOv4 车辆总数 9 9 9 9 9 检出车辆数 1 4 5 6 9 漏检车辆数 8 5 4 3 0 误检车辆数 0 1 0 0 0 表 4 目标检测评价结果
Table 4. Evaluation result of object detection
网络 P/% R/% F/% $\bar P $ /% S/(帧·s-1) YOLOv3 35.00 76.00 47.93 45.56 32.13 YOLOv4 49.00 88.00 62.94 63.87 34.84 MYOLOv4 88.00 90.00 88.98 86.91 35.47 TOD-YOLOv4 90.00 91.00 90.49 89.30 48.93 DTOD-PReYOLOv4 96.00 91.00 94.00 93.61 51.10 1. Network parameters of CSPDarkNet26
2. Examples of information on Car-type anchor boxes
3. Vehicle detection result
4. Result of object detection evaluation
-
[1] 唐立, 卿三东, 徐志刚, 等. 自动驾驶公众接受度研究综述[J]. 交通运输工程学报, 2020, 20(2): 131-146. https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202002011.htmTANG Li, QING San-dong, XU Zhi-gang, et al. Research review on public acceptance of autonomous driving[J]. Journal of Traffic and Transportation Engineering, 2020, 20(2): 131-146. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202002011.htm [2] 缪炳荣, 张卫华, 刘建新, 等. 工业4.0下智能铁路前沿技术问题综述[J]. 交通运输工程学报, 2021, 21(1): 115-131. https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202101008.htmMIAO Bing-rong, ZHANG Wei-hua, LIU Jian-xin, et al. Review on frontier technical issues of intelligent railways under industry 4.0[J]. Journal of Traffic and Transportation Engineering, 2021, 21(1): 115-131. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202101008.htm [3] 杨澜, 赵祥模, 吴国垣, 等. 智能网联汽车协同生态驾驶策略综述[J]. 交通运输工程学报, 2020, 20(5): 58-72. https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202005008.htmYANG Lan, ZHAO Xiang-mo, WU Guo-yuan, et al. Review on connected and automated vehicles based cooperative eco-driving strategies[J]. Journal of Traffic and Transportation Engineering, 2020, 20(5): 58-72. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202005008.htm [4] 马永杰, 马芸婷, 程时升, 等. 基于改进YOLOv3模型与Deep-SORT算法的道路车辆检测方法[J]. 交通运输工程学报, 2021, 21(2): 222-231. https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202102022.htmMA Yong-jie, MA Yun-ting, CHENG Shi-sheng, et al. Road vehicle detection method based on improved YOLOv3 model and deep-SORT algorithm[J]. Journal of Traffic and Transportation Engineering, 2021, 21(2): 222-231. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-JYGC202102022.htm [5] ZHANG He, PATEL V M. Density-aware single image de-raining using a multi-stream dense network[C]//IEEE. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 695-704. [6] LI Xia, WU Jian-long, LIN Zhou-chen, et al. Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//Springer. 2014 European Conference on Computer Vision. Berlin: Springer, 2018: 262-277. [7] REN D, ZUO W, HU Q, et al. Progressive image deraining networks: A better and simpler baseline[C]//IEEE. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 3932-3941. [8] JIN Xin, CHEN Zhi-bo, LI Wei-ping. AI-GAN: asynchronous interactive generative adversarial network for single image rain removal[J]. Pattern Recognition, 2020, 100: 107143. doi: 10.1016/j.patcog.2019.107143 [9] 柳长源, 王琪, 毕晓君. 基于多通道多尺度卷积神经网络的单幅图像去雨方法[J]. 电子与信息学报, 2020, 42(9): 2285-2292. https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202009027.htmLIU Chang-yuan, WANG Qi, BI Xiao-jun. Research on rain removal method for single image based on multi-channel and multi-scale CNN[J]. Journal of Electronics and Information Technology, 2020, 42(9): 2285-2292. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-DZYX202009027.htm [10] LIN Xiao, MA Li-zhuang, SHENG Bin, et al. Utilizing two-phase processing with FBLS for single image deraining[J]. IEEE Transactions on Multimedia, 2020, 23: 664-676. [11] PENG Jia-yi, XU Yong, CHEN Tian-yi, et al. Single-image raindrop removal using concurrent channel-spatial attention and long-short skip connections[J]. Pattern Recognition Letters, 2020, 131: 121-127. doi: 10.1016/j.patrec.2019.12.012 [12] SUN Guo-min, LENG Jin-song, CATTANI C. A particular directional multilevel transform based method for single-image rain removal[J]. Knowledge-Based Systems, 2020, 200: 106000. doi: 10.1016/j.knosys.2020.106000 [13] PENG Long, JIANG Ai-wen, Yi Qiao-si, et al. Cumulative rain density sensing network for single image Derain[J]. IEEE Signal Processing Letters, 2020, 27: 406-410. doi: 10.1109/LSP.2020.2974691 [14] BI Xiao-jun, XING Jun-yao. Multi-scale weighted fusion attentive generative adversarial network for single image de-raining[J]. IEEE Access, 2020, 8: 69838-69848. doi: 10.1109/ACCESS.2020.2983436 [15] WANG Hong, WU Yi-chen, XIE Qi, et al. Structural residual learning for single image rain removal[J]. Knowledge-Based Systems, 2021, 213: 106595. doi: 10.1016/j.knosys.2020.106595 [16] 高涛, 刘梦尼, 陈婷, 等. 结合暗亮通道先验的远近景融合去雾算法[J]. 西安交通大学学报, 2021, 55(10): 78-86. https://www.cnki.com.cn/Article/CJFDTOTAL-XAJT202110009.htmGAO Tao, LIU Meng-ni, CHEN Ting, et al. A far and near scene fusion defogging algorithm based on the prior of dark-light channel[J]. Journal of Xi'an Jiaotong University, 2021, 55(10): 78-86. (in Chinese) https://www.cnki.com.cn/Article/CJFDTOTAL-XAJT202110009.htm [17] CHEN Ting, LIU Meng-ni, GAO Tao, et al. A fusion-based defogging algorithm[J]. Remote Sensing, 2022, 14(2): 425. doi: 10.3390/rs14020425 [18] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//IEEE. 29th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779-788. [19] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//IEEE. 30th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 6517-6525. [20] REDMON J, FARHADI A. YOLOv3: An incremental improvement[J]. arXiv, 2018: 20200100292. [21] BOCHKOVSKIY A, WANG Chien-yao, LIAO Hong-yuan. YOLOv4: optimal speed and accuracy of object detection[J]. arXiv, 2020: 20200411830. [22] NING Zhang, MI Zhi-wei. Research on surface defect detection algorithm of strip steel based on improved YOLOv3[J]. Journal of Physics: Conference Series, 2021, 1907(1): 012015. doi: 10.1088/1742-6596/1907/1/012015 [23] YU Pei-dong, WANG Xin, LIU Jian-hui, et al. Bridge target detection in remote sensing image based on improved YOLOv4 algorithm[C]//ACM. 2020 4th International Conference on Computer Science and Artificial Intelligence. New York: ACM, 2020: 139-145. [24] CHEN Wen-kang, LU Sheng-lian, LIU Bing-hao, et al. Detecting citrus in orchard environment by using improved YOLOv4[J]. Scientific Programming, 2020, 2020: 8859237. [25] ZHU Qin-feng, ZHENG Hui-feng, WANG Yue-bing, et al. Study on the evaluation method of sound phase cloud maps based on an improved YOLOv4 algorithm[J]. Sensors, 2020, 20(15): 4314. doi: 10.3390/s20154314 [26] HU Jie, SHEN Li, ALBANIE S. Squeeze-and-excitation networks[C]// IEEE. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132-7141. [27] DENG Jie, DONG Wei, SOCHER R, et al. Imagenet: A large-scale hierarchical image database[C]//IEEE. 2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2009: 248-255. [28] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Springer. 13th European Conference on Computer Vision. Berlin: Springer, 2014: 740-755. [29] ARTHUR D, VASSILVITSKⅡ S. k-means++: the advantages of careful seeding[C]//ACM. 18th Annual ACM-SIAM Symposium on Discrete Algorithms. New York: ACM, 2007: 1027-1035. [30] CHOWDHURY K, CHAUDHURI D, PAL A K, et al. Seed selection algorithm through k-means on optimal number of clusters[J]. Multimedia Tools and Applications, 2019, 78(13): 18617-18651. doi: 10.1007/s11042-018-7100-4 [31] YAMAMICHI K, HAN Xian-hua. MCGKT-Net: Multi-level context gating knowledge transfer network for single image deraining[C]//Springer. 15th Asian Conference on Computer Vision. Berlin: Springer, 2020: 1-17. [32] YANG Wen-han, TAN R T, FENG Jia-shi, et al. Deep joint rain detection and removal from a single image[C]//IEEE. 30th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 1357-1366. [33] LI Yu, TAN Robby T, GUO Xiao-jie, et al. Rain streak removal using layer priors[C]//IEEE. 29th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2736-2744. [34] ZHANG He, SINDAGI V, PATEL V M. Image de-raining using a conditional generative adversarial network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(11): 3943-3956. doi: 10.1109/TCSVT.2019.2920407 [35] FU Xue-yang, HUANG Jia-bin, ZENG De-lu, et al. Removing rain from single images via a deep detail network[C]//IEEE. 30th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 3855-3863. [36] ZHANG He, PATEL V M. Density-aware single image de-raining using a multi-stream dense network[C]//IEEE. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 695-704. [37] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the KITTI vision benchmark suite[C]//IEEE. 25th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2012: 3354-3361. [38] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//IEEE. 29th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 3213-3223. [39] NEUHOLD G, OLLMANN T, BULÒ S R, et al. The mapillary vistas dataset for semantic understanding of street scenes[C]//IEEE. 30th IEEE International Conference on Computer Vision. New York: IEEE, 2017: 4990-4999. [40] YU Fisher, XIAN Wen-qi, CHEN Ying-ying, et al. BDD100K: a diverse driving video database with scalable annotation tooling[EB/OL]. (2020-04-08)[2022-07-02]. https://arxiv.org/abs/1805.04687v2. [41] CAESAR H, BANKITI V, LANG A H, et al. nuScenes: a multimodal dataset for autonomous driving[C]//IEEE. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 11618-11628. [42] HUANG Xin-yu, WANG Peng, CHENG Xin-jing, et al. The ApolloScape open dataset for autonomous driving and its application[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(10): 2702-2719. doi: 10.1109/TPAMI.2019.2926463 [43] ZHU Zhe, LIANG Dun, ZHANG Song-hai, et al. Traffic-sign detection and classification in the wild[C]//IEEE. 29th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2110-2118. [44] STALLKAMP J, SCHLIPSING M, SALMEN J, et al. The German traffic sign recognition benchmark: a multi-class classification competition[C]// IEEE. 2011 International Joint Conference on Neural Networks. New York: IEEE, 2011: 1453-1460. 期刊类型引用(5)
1. 冯笑媚. 基于深度学习的道路交通目标自动化检测算法研究. 自动化与仪器仪表. 2024(01): 39-43 . 百度学术
2. 陈婷,朱熟康,高涛,李浩,涂辉招,李子琦. 基于自适应融合的实时车辆检测. 同济大学学报(自然科学版). 2024(04): 532-540 . 百度学术
3. 都凯. 结合卷积核组与位置注意力的遥感影像建筑物检测方法. 经纬天地. 2024(04): 96-100 . 百度学术
4. 臧珂. 结合非对称卷积组与通道注意力的遥感影像建筑检测方法. 测绘与空间地理信息. 2024(10): 87-90 . 百度学术
5. 应申,曾卓源,张纪元. 面向数据脱敏的交通场景车牌检测方法. 交通信息与安全. 2024(06): 84-94 . 百度学术
其他类型引用(9)
-