马永杰 程时升 马芸婷 马义德

马永杰, 程时升, 马芸婷, 马义德. 卷积神经网络及其在智能交通系统中的应用综述[J]. 交通运输工程学报, 2021, 21(4): 48-71. doi: 10.19818/j.cnki.1671-1637.2021.04.003
MA Yong-jie, CHENG Shi-sheng, MA Yun-ting, MA Yi-de. Review of convolutional neural network and its application in intelligent transportation system[J]. Journal of Traffic and Transportation Engineering, 2021, 21(4): 48-71. doi: 10.19818/j.cnki.1671-1637.2021.04.003
Review of convolutional neural network and its application in intelligent transportation system


National Natural Science Foundation of China 62066041

  • 摘要: 从特征传输方式、空间维度、特征维度3个角度,论述了近年来卷积神经网络结构的改进方向,介绍了卷积层、池化层、激活函数、优化算法的工作原理,从基于值、等级、概率和转换域四大类总结了近年来池化方法的发展,给出了部分具有代表性的激活函数对比、梯度下降算法及其改进型和自适应优化算法的工作原理和特点;梳理了卷积神经网络在车牌识别、车型识别、交通标志识别、短时交通流预测等智能交通领域中的应用和国内外研究现状,并将卷积神经网络算法与支持向量机、差分整合移动平均回归模型、卡尔曼滤波、误差反向传播神经网络、长短时记忆网络算法从优势、劣势和在智能交通领域的主要应用场景三方面进行了对比;分析了卷积神经网络在智能交通领域面临的鲁棒性不佳和实时性较差等问题,并从算法优化、并行计算层面和有监督学习到无监督学习方向研判了卷积神经网络的发展趋势。研究结果表明:卷积神经网络在视觉领域具有较强优势,在智能交通系统中主要应用于交通标志、车牌、车型识别、交通事件检测、交通状态预测;相比其他算法,卷积神经网络所提取的特征更加全面,有效地提高了识别准确度与速度,具有较大的应用价值;卷积神经网络未来将通过网络结构的优化、算法的改进、算力的提升以及基准数据集的增强,为智能交通带来新的突破。


  • 图  1  人工神经网络发展路线

    Figure  1.  Development route of artificial neural network

    图  2  卷积操作

    Figure  2.  Convolution operation

    图  3  最大池化与平均池化操作

    Figure  3.  Operations of max-pooling and average-pooling

    表  1  基于空间维度、特征维度、特征传输方式的网络结构

    Table  1.   Network structure based on spatial dimensions, characteristic dimensions, and characteristic transmission methods

    分类标准 方法 代表性网络
    空间维度 (1)用多个小卷积核代替大卷积核 VGGNet[24]
    (2)多尺度非线性,单一尺寸卷积核用多尺寸卷积核代替,使用1×1卷积核 Inception系列[25, 28-30]
    (3)固定形状卷积核趋于使用可变形卷积核 可变形卷积网络[31]
    (4)空洞卷积 FCN[32]
    (5)反卷积 ZFNet[23]
    特征维度 (1)深度可分离卷积,每个通道使用不同卷积操作 Xception[33]
    (2)使用分组卷积 AlexNet[17]
    (3)分组卷积前对通道随机分组 ShuffleNet[34]
    (4)通道加权计算 SE-Net[35]
    特征传输方式 (1)使用跳跃连接,让模型更深 ResNet[26]
    (2)密集连接,使每一层都融合上其他层的特征输出 DenseNet[27]
    表  2  基于值、等级、概率和转换域的池化方法

    Table  2.   Pooling methods based on values, rank, probabilities and transformed domains

    分类标准 代表性方法
    基于值的池化方法 基于显著性特征 最大池化[47]、平均池化[48]、混合池化[50]、全局平均池化[51]、跳跃池化[52]、空间金字塔池化[53]、内核池化[54]、动态相关池化[55]、多激活池化[56]、联合池化[57]、细节保留池化[58]、同心圆池化[59]
    基于补丁 补丁子类池化[60]、系列多池化[61]、部分平均池化[62]
    多采样方法 多采样棋盘池化[63]、并行网格池化[64]
    基于等级的池化方法 多级池化[65]、顺序池化[66]、全局加权排名池化[67]
    基于概率的池化方法 随机空间采样池化[69]、混合池化[70]、随机池化[71]
    基于转换域的池化方法 基于时域的池化[74]、基于频域的池化[75]、基于小波域的池化[76]
    表  3  部分具有代表性的激活函数对比

    Table  3.   Contrast of some representative activation functions

    激活函数 数学表达形式 优点 缺点
    Sigmoid $ {f_1}(x) = \frac{1}{{1 + {{\rm{e}}^{ - x}}}}$ 具有连续可微分性的特征,曾是激活函数的最优选择 不具有稀疏特性,容易梯度弥散,不关于原点对称,收敛速度较慢,且计算复杂
    Tanh ${f_2}(x) = \frac{{{{\rm{e}}^x}{\rm{ - }}{{\rm{e}}^{ - x}}}}{{{{\rm{e}}^x} + {{\rm{e}}^{ - x}}}} $ 关于原点对称,比Sigmoid函数收敛速度快 无法解决梯度弥散的问题,且计算复杂
    ReLU[87] f3(x)=max{0, x} 解决了梯度弥散问题,收敛速度快,更加接近生物神经元的激活模型[89],且计算简单 稀疏性过强,易出现神经元死亡现象[90]
    Softplus[88] f4(x)=ln(1+ex) 避免ReLU强制性稀疏的缺点,对全部数据进行非线性映射,避免有价值的信息丢失 欠缺对样本模型的表达能力,收敛速度较慢
    Maxout[91] $\begin{array}{l} {f_5}(x) = \mathop {max\;{s_{qg}}}\limits_{g \in [1,G]} \\ {s_{qg}} = \sum\limits_{q = 1}^N {{w_{qg}}{x_q} + {v_g}} \; \end{array} $ 克服了ReLU的缺点 增加了参数量[92]
    ELU[93] ${f_6}(x) = \left\{ {\begin{array}{*{20}{c}} {x\;\;\;\;\;\;\;\;\;\;\;\;\;x > 0}\\ {{\alpha _6}({{\rm{e}}^x} - 1)\;\;x \le 0} \end{array}} \right. $ 缓解神经元死亡现象,具有一定抗干扰能力,输出均值接近于0,收敛速度更快 会发生梯度弥散,计算复杂
    Leaky ReLU[94] ${f_7}(x) = \left\{ {\begin{array}{*{20}{c}} {x\;\;\;\;\;x > 0}\\ {{\alpha _7}x\;\;x \le 0} \end{array}} \right. $ 缓解ReLU的神经元死亡现象,具有一定稀疏性 欠缺对样本模型的表达能力,需调整超参数α
    PReLU[95] ${f_8}(x) = \left\{ {\begin{array}{*{20}{c}} {x\;\;\;\;\;\;\;\;x > 0}\\ {{\alpha _8}(x)\;\;x \le 0} \end{array}} \right. $ 继承了Leaky ReLU的优点,且较Leaky ReLU效果更好 欠缺对样本模型的表达能力,需调整超参数α,模型训练难度有所提高
    SeLU[96] $\begin{array}{l} {f_9}(x) = \lambda \left\{ {\begin{array}{*{20}{c}} {x\;\;\;\;\;\;\;\;\;\;\;\;\;x > 0}\\ {{\alpha _9}{{\rm{e}}^x} - {\alpha _9}\;\;x \le 0} \end{array}} \right.\\ {\alpha _9} \approx 1.6733,\lambda \approx 1.0507 \end{array} $ 确保训练过程中梯度不会爆炸或消失,自动将样本分布归一化到0均值和单位方差
    表  4  优化算法类别

    Table  4.   Classification of optimization algorithms

    类别 基本算法 自适应学习率算法
    代表性算法 BGD、SGD、MBGD、动量[102]、基于NAG的动量方法[103] Adagrad[104]、Adadelta[105]、RMSprop[106]、Adam[98, 107]、Nadam[108]、AdaBound[109]、AMSBound[109]
    特点 需人工设计学习率,在适合的初始化和学习率调度方案的情况下,结果更可靠 自适应地为每个参数分配不同学习率,性能更稳定,适用于训练较深较复杂的网络以及稀疏数据
    表  5  卷积神经网络与其他ITS常用算法对比

    Table  5.   Comparison among convolutional neural network and other ITS common algorithms

    算法名称 算法优势 算法劣势 应用方向
    卷积神经网络(CNN) 自主学习进行特征提取、分类,识别率高 训练数据集庞大、对硬件要求较高 交通标志识别、车牌识别、车型识别、交通事件检测、交通状态预测
    支持向量机(SVM) 可以解决高维数据和非线性问题 处理多分类问题以及数据量较大时效果不佳、核函数参数确定困难 交通标志识别
    差分整合移动平均回归模型(Autoregressive Integrated Moving Average Model,ARIMA) 模型体量较小,便于计算 时间序列需要稳定、非线性问题预测性能差、对数据敏感、数据不可缺失稀疏 客流量预测等回归问题
    卡尔曼滤波(Kalman Filtering) 非线性问题处理性能佳、精度高 计算量大、模型复杂、易受噪声数据干扰 客流量预测、交通标志识别
    误差反向传播神经网络(Back Propagation Feed-Forward Neural Network, BPNN) 模型收敛较快,数据的内部规律不需深入了解 随机初始化权值参数、易陷入局部最优 客流量预测、交通状态判别
    长短时记忆网络(Long Short-Term Memory Networks, LSTM) 很好地利用了数据中心的时间特征、鲁棒性较强 训练数据集庞大、对数据敏感、数据不可缺失稀疏、结构复杂、收敛速度较慢 客流量预测等回归问题
