Desirable energy space identification of clean and self-consistent energy along railways
-
摘要: 为了智能识别铁路沿线的清洁自洽能源宜能空间,构建了一个包含210张分辨率为4 800像素× 2 986像素的铁路遥感图像数据集;针对遥感图像处理领域中多尺度融合单元通道信息不兼容的问题,提出了自注意力机制模块,以增强对多尺度特征的捕捉能力;针对不同尺度高分辨率遥感图像预测结果存在的差异性,提出了多尺度一致性正则化方法(MSCR),以增强模型对不同尺度图像处理的鲁棒性;综合自注意力机制模块与多尺度一致性正则化方法,对经典的图像分割HRNetV2方法进行了改进,构建了MSCR-HRNetV2方法;在自建的铁路遥感图像数据集和公开的Potsdam遥感图像数据集分别对MSCR-HRNetV2方法进行验证。研究结果表明:在铁路遥感图像数据集上,改进的MSCR-HRNetV2方法取得了81.37%的平均交并比,相较于原HRNetV2方法提高了3.13%,与主流图像分割方法DeepLabV3+相比,提高了3.86%;在Potsdam遥感图像数据集上,MSCR-HRNetV2方法的平均交并比达到了75.96%,相比HRNetV2方法提高了2.01%,与DeepLabV3+相比提高了2.19%。可见,改进的MSCR-HRNetV2方法显著提高了高分辨率遥感图像的语义分割性能,从而智能识别铁路沿线的清洁自洽能源宜能空间,为交通能源融合系统的规划和设计提供了重要的技术支撑。Abstract: In order to intelligently identify the desirable energy space of clean and self-consistent energy along railways, a remote sensing image dataset containing 210 railway images with a resolution of 4 800 pixel×2 986 pixel was constructed. To address the problem of incompatible channel information of multi-scale fusion units in remote sensing image processing, a self-attention mechanism module was proposed to enhance the ability to capture multi-scale features. To address the discrepancy in the prediction results of remote sensing images with high resolution at different scales, a multi-scale consistency regularization (MSCR) method was proposed to enhance the robustness of the model during image processing. The MSCR-HRNetV2 method was constructed by combining the self-attention mechanism module and the MSCR method to improve the classical image segmentation HRNetV2 method. The MSCR-HRNetV2 method was verified on the self-built remote sensing image dataset of railways and the publicly available Potsdam remote sensing image dataset, respectively. Analysis results show that on the remote sensing image dataset of railways, the improved MSCR-HRNetV2 method achieves a mean intersection over union (MIoU) of 81.37%, which is an improvement of 3.13% compared with the original HRNetV2 method and an improvement of 3.86% compared with the mainstream image segmentation method DeepLabV3+. On the Potsdam remote sensing image dataset, the MIoU of the MSCR-HRNetV2 method reaches 75.96%, which is improved by 2.01% compared to HRNetV2 and 2.19% compared to DeepLabV3+. It can be seen that the improved MSCR-HRNetV2 method significantly improves the semantic segmentation performance of remote sensing images with high resolution, thus intelligently identifying the desirable energy space for clean and self-consistent energy along railways and providing important technical support for the planning and design of the integration system of transportation and energy.
-
0. 引言
能源和交通运输业是中国经济体系的核心。能源生产和交通运输行业的融合对于中国实现“双碳”目标具有不可替代的作用[1]。通过将可再生能源生产引入到铁路交通系统中,可以充分开发适用可再生能源发展的宜能空间。
近年来,铁路系统经历了一系列的太阳能发电技术应用。中国铁路系统很早就开始了铁路线路沿线新动能和太阳能的研究、试验和推广。艾国乐等[2]通过在高速铁路上方架设光伏组件发电系统,量化全国设计时速超过200 km高速铁路线路的光伏发电潜力,验证了高速铁路光伏系统节能减排的经济可行性;张舜等[3]设计多种量化潜力指标,构建铁路光伏全生命周期分析模型,从技术、环境、经济多个方面综合评估铁路与太阳能的融合潜力;Li等[4]介绍了上海2个太阳能发电应用的案例,在车辆基地的屋顶安装光伏发电系统已成为现代轨道交通节能减排、绿色发展的趋势;Zhong等[5]研究了高速铁路牵引供电系统的分布式光伏发电(Distributed Photovoltaic Generation,DPVG)和能源存储系统(Energy Storage System, ESS)的最优规划,展示了DPVG和ESS在高速铁路行业的潜力和适用性;Ning等[6]通过构建三合一的牵引-储能-信息一体化站,提出了铁路光伏一体化系统的铁路能源供应系统的演化模型;Chen等[7]开发了一种基于地理信息系统(Geographic Information System, GIS)的方法,用于评估铁路沿线和铁路站屋顶的光伏潜力,以北京—上海高速铁路为案例研究,其总光伏潜力达到5.65 GW,其中站点潜力为264 MW,约为总潜力的4.68%,终身发电能力为155 TW·h,相当于2020年中国新装机容量总量的12%。然而轨道系统的光伏潜力并未完全开发,上述传统方法依赖于地理信息系统,存在数据缺失,精度不佳等问题。为此,本文引入语义分割方法,对铁路系统中遥感图像进行像素级语义分割,进而评估可利用的宜能空间。
随着遥感技术的飞速发展,大量高质量、高分辨率的遥感图像数据变得愈加丰富和易于获取,对这些遥感图像进行图像理解是一个具有挑战性的问题。高分辨率遥感图像的语义分割是预测遥感图像中每个像素的标签,为遥感解释奠定了基石,在测绘、导航、土地资源管理等[8-11]领域都具有重要意义。
本文采用语义分割方法对铁路沿线的高分辨率遥感图像进行像素级处理,精确识别铁路线及其周边的环境特征,为铁路宜能空间的识别提供了基础,为计算铁路沿线的太阳能、风能等可再生能源资源禀赋提供了有力支持,推动了再生能源在铁路交通领域的高效应用。
传统语义分割方法[12-13]依赖于专家经验,其性能受限于人为特征选择。近年来,随着深度学习理论的迅猛发展,基于深度卷积神经网络的语义分割技术[14]已成为研究的热点,通过深层次的网络结构,可以提取图像上丰富的语义特征,具有强大的特征建模能力,逐步成为高分辨率遥感图像语义分割的主流方案。Lin等[15]提出了一种构建多路径网络,显式地利用了下采样过程的所有信息,并通过远程残差连接来实现高分辨率的预测。为了提高语义分割的准确率,研究者们将重点放在上下文信息融合和分割结果的细化上,提出了几种网络变体来增强上下文聚合。Zhao等[16]提出金字塔场景解析网络(Pyramid Scene Parsing Network,PSPNet),利用金字塔池化模块整合不同区域的上下文信息;Chen等[17-19]提出DeepLab系列方法,通过引入空洞空间金字塔池化,利用具有不同扩张率的空洞卷积,捕获图像在不同尺度上的特征,从而聚合丰富的上下文信息;Wang等[20]提出一种高分辨率深度神经网络(High-Resolution Network,HRNet),包括初始版本HRNetV1以及后续版本HRNetV2,其中HRNetV1通过并行连接多分辨率子网,通过对低分辨率的特征图进行上采样操作,以匹配高分辨率特征图的尺寸,并进一步将其与高分辨率特征图融合,实现兼顾细节信息与全局语义信息,HRNetV2在HRNetV1的基础上进行了优化,改善了特征融合机制和多尺度特征处理能力;Bai等[21]提出了一种用于高分辨率遥感图像语义分割的上下文聚合网络,该网络能够有效处理遥感图像中包含的复杂地物信息,但其设计并未针对多尺度处理过程中的高分辨率细节进行优化;Pang等[22]提出了一种基于图块到区域的框架,用于大尺度遥感图像的语义分割,有效解决了传统语义分割在处理大面积建筑和水体图像时遇到的困难。
尽管基于深度学习的语义分割方法近年来取得了显著进展,但在铁路遥感图像分析中仍然面临着若干技术难题。高分辨率铁路遥感图像分割任务涉及像素级语义分割和多类别分类,高分辨率铁路遥感图像中的铁路场景往往包含大量细节信息及显著的尺度变化,传统方法难以捕捉足够的细节和上下文信息[23],现有技术在处理高分辨率铁路遥感图像时,往往无法准确区分轨道与周围环境,导致分割和识别精度不足,严重依赖于大规模像素级标注数据[24],且目前缺乏带标注的高质量铁路场景遥感图像数据集,限制了在大范围场景中应用的可行性。
综上所述,本文首先构建了一个包含有喀和铁路和甘泉铁路2条铁路段沿线的高分辨率遥感图像数据集,并提出了一种新的高分辨率遥感图像的语义分割方法MSCR-HRNetV2,该方法在HRNetV2的基础上进行改进,嵌入了自注意力机制(Squeeze-and-Excitation, SE)模块,并引入一种多尺度的不确定性评估方法(Multi-Scale Consistency Regularization, MSCR),用于高分辨率遥感图像的语义分割,以更好地应对铁路场景遥感图像分割的挑战。
1. HRNetV2方法架构
HRNet是微软亚洲研究院提出的一种用于人体姿态估计的神经网络架构[25],旨在解决先前神经网络架构在处理高分辨率图像方面的局面性。HRNet的核心设计思想是通过同时结合多个低分辨率特征图和高分辨率特征图,实现多尺度融合。图 1展示了HRNet的方法架构,主要由4个阶段组成。在HRNet的第1个阶段中,包含4个残差单元,每个单元由3×3的卷积核与2个1×1的卷积核构建,类似于ResNet系列中的残差结构。其中1×1的卷积核主要用于调整特征图的通道数,而3×3的卷积核则负责在不同尺度上提取特征。而在第2、3、4阶段,分别具有2、3、4个交换块,这些交换块负责在不同分辨率的特征图间进行特征交换与融合,增强对高分辨率图像局部信息的捕捉以及对全局信息的全面理解,确保了对高分辨率图像的细节捕捉与分析的精准度,显著提升了网络在图像分类、目标检测、语义分割等计算机视觉任务中的性能。
HRNet有HRNetV1和HRNetV2两个版本:HRNetV1只有最高分辨率的卷积层的输出被用作最终的特征表示(图 2(a)),而其他分辨率的输出则被丢弃;HRNetV2通过拼接来自所有分辨率的上采样表示来呈现(图 2(b)),在HRNetV1的基础上进行了简单有效的修改,在最后一个阶段先将低分辨率特征图进行上采样,然后再将所有特征图进行拼接。这种策略允许模型同时保持高分辨率的细节特征和全局语义信息,在处理高分辨率图像时具有较高的性能。
2. 改进HRNetV2遥感图像语义分割
高分辨率铁路遥感图像中蕴含着多样的地物特征,并展示出显著的尺度变化,特别是铁路线与周围环境的尺度差异显著。而HRNetV2在进行特征融合时面临各分辨率特征的通道数不一致的问题,需要引入高效的策略来调整和统一不同特征层次的通道数,以确保信息融合的顺畅进行和方法性能的最优化。
为此本文提出了一种改进的MSCR-HRNetV2方法,具体包括以下措施:(1)在原有方法的基础上集成了基于自注意力的残差单元,用于解决HRNetV2在进行多尺度融合时遇到的通道不匹配难题;(2)引进多尺度一致性正则化策略以增强方法对不同尺度处理的鲁棒性和泛化处理能力,有效评估了方法面对不确定性的处理能力,提升方法的鲁棒性和泛化能力,减少了方法对特定尺度的过度依赖。
上述措施不仅解决了通道信息不匹配的问题,更有效地应对了铁路遥感图像中的尺度变化,提高了语义分割方法在复杂高分辨率图像上的分割性能。图 3展示了本文改进MSCR-HRNetV2方法框架。这些改进措施的综合应用使得方法更具适应性和泛化能力,为高分辨率铁路遥感图像的语义分割任务提供了更为有效的解决方案。
2.1 自注意力机制模块嵌入
通道注意力机制通过压缩和激发操作,动态调整输入特征图中各通道的权重,强化输入特征图中的重要通道特征,增强特征表达的能力,从而有效提升深度神经网络模型的性能[26]。如图 4所示,其中:H为特征高度;W为特征宽度;C为通道数。压缩操作是利用全局平均池化层对输入特征图的每个通道进行挤压,以捕获每个通道在整个空间范围内的全局分布信息。激发操作通过采用全连接层的方式来建模特征通道间的相互依赖性,从而动态调整各通道的激活权重。利用使用激发操作得到的通道权重对原始输入特征图的每个通道进行加权,从而实现特征的重标定。这一过程使得神经网络能够通过学习全局信息来选择性增强重要的特征并抑制不重要的特征,提高了神经网络的表达能力。
为了提高语义分割方法的精确度与泛化性能,本研究将SE模块集成于HRNetV2架构之中,如图 3所示。在每次残差单元求和之前,在不同尺度网络结构的骨干网络中添加了一个SE模块。该设计使得神经网络可以自主挖掘各通道间的相互依赖性,自适应分配不同通道的权重,提高了HRNetV2方法对关键特征的敏感度和对无关特征的抑制能力。
2.2 多尺度差异不确定性的估计方法
在计算机视觉任务中,通常需要在不同尺度上分析和解释图像或其他视觉数据,目的是捕捉到图像中的局部细节以及全局信息。Luo等[27]提出的多尺度一致性正则化是一种先进的正则化策略,该策略的核心思想是通过在不同尺度特征上应用扰动和正则化,以确保方法在各个尺度上的输出保持高度的一致性。这种策略不仅有利于增强方法的解释性,还能够在多尺度识别、分类等任务中达到更为精确和鲁棒的性能表现。
高分辨率遥感图像包含丰富的细节和多层次的信息,涵盖了广泛的地表特征。为了应对高分辨率图像的复杂性,本文在HRNetV2的解码阶段引入多尺度差异性不确定性的估计方法,该方法框架如图 3所示。在HRNetV2中,编码器输出的各尺度特征图通过上采样至初始图像尺寸,然后将这些上采样的特征图进行连接,形成方法的最终输出。在本文提出的MSCR-HRNetV2方法中,设经过编码器4个阶段的处理后输出的特征图分别定义为L1、L2、L3、L4,先将L2、L3、L4的特征通过双线性上采样到L1特征分辨率,得到L2′、L3′、L4′;再将L1、L2′、L3′、L4′传入卷积核为1×1的卷积层中,得到的每个尺度的输出特征图,最后经过分类器获取最终的预测结果y1、y2、y3、y4。预测结果会被相应尺度大小的标签所监督学习。对应的损失函数如下
G=n∑w=1C(yw,ylabel ) 式中:n为方法输出尺度的数量;G为输出尺度的总损失;C(·)为标准的监督学习损失函数;yw为第w个尺度的输出特征图;ylabel为对应的语义分割标签。
MSCR-HRNetV2在引入多尺度差异不确定性的估计方法后,有效降低了语义分割方法对单一尺度信息的依赖,可以充分利用遥感图像中的多尺度信息,确保了在各个尺度上能够获得一致的预测效果,从而显著增强了语义分割方法的分割性能。
3. 算例分析
3.1 数据集及其预处理
本文的主要目的是设计一种针对高分辨率遥感图像的像素级语义分割算法,用于识别铁路及其沿线周围的场景,并通过得到的铁路线、铁路边坡及其周边场景的精确信息,构建出铁路交通场景的宜能空间方法。针对铁路场景的分割方法训练,需要大量带标签的铁路遥感数据集,西北工业大学曾公开了包含一部分铁路遥感图像的场景分类数据集,但是该数据集的铁路遥感图像仅关注铁路线本身,忽略了铁路周围环境[28],缺乏铁路边坡及周边场景;同时,鉴于铁路未来清洁能源的用能场景主要集中在风光资源丰富的中国西北地区的非电气化铁路段[29],本文选取了中国西北地区风光资源丰富的喀和铁路与甘泉铁路2条铁路段,并通过Google Earth Pro找到其铁路沿线及周围场景,顺延铁路线依次获取获得高分辨率的铁路遥感图像,更全面地涵盖铁路及其周边场景,定义为数据集1。由于缺乏合适的公开铁路数据集作为补充试验,为了验证方法的泛化能力并全面评估其在真实场景中的性能,本文选择在公开的Potsdam数据集上进行验证。Potsdam数据集是一个遥感图像语义分割领域常用的数据集[30],Potsdam数据集与自建的铁路数据集在场景和特点上存在差异,但它们在类别数量和部分标签(如植被和建筑)方面具有相似之处,定义为数据集2。通过在Potsdam数据集上的试验验证,能够测试方法在不同环境下的泛化能力。
数据集1包含210张高分辨率遥感图像,每张遥感图像的尺寸为4 800像素×2 986像素,视角海拔高度达2 km,空间分辨率为0.24 m。来自喀和铁路段的遥感图像有120张,来自甘泉铁路段的遥感图像有90张。该数据集的场景类型包括了铁路线、铁路边坡、城镇房屋、绿地、荒地共5类,使用LabelMe对收集到的高分辨率遥感图像进行像素级标注。本文将数据集1中80%的图片作为训练集,20%的图片作为验证集。为避免方法过拟合,通过旋转、镜像、剪切等方式进行数据增强操作,以增强方法的泛化能力,增强后的数据集1共有5 040张。
数据集2是由国际摄影测量与遥感学会发布的高质量遥感图像语义分割数据集,共包含38张高分辨率的城市场景图像,每张图像为6 000像素×6 000像素;本文将数据集2中70%的图片作为训练集,30%的图片作为验证集。涵盖汽车、树木、低矮的植被、建筑、不透水表面5个类别,对数据集的原始图像进行切割,每张原始图片切割为100张600像素×600像素的图像,最终获得3 800张图像。
3.2 试验环境与训练策略
本文中所有试验均基于深度学习框架PyTorch,在配置为GeForce RTX 2080Ti显卡的Linux操作系统电脑上进行训练。对比试验所涉及的各种方法,均使用相同的超参数设置,其中优化器采用随机梯度下降优化器,批量大小设定为64,学习率为0.004,权值衰减系数为0.000 000 01,动量的值为0.9,迭代轮次为200。由于GPU显存大小的限制,本文将遥感图像尺寸调整为480像素×480像素,并将训练样本分批输入到方法中进行训练。
3.3 评价指标
在本研究中,主要采用平均交并比(Mean Intersection over Union,MIoU)作为遥感图像分割的主要指标,用于衡量方法预测的分割结果和真实标注之间的相似度,同时使用类别平均像素准确率(Mean Pixel Accuracy,MPA) 和准确率作为辅助指标来评价方法的分割性能。此外,为了衡量分割方法的计算性能和复杂度,本文引入每秒十亿次浮点运算(Giga Floating Point Operations Per Second,GFLOPs)和参数数量(Params)指标。GFLOPs用于量化方法在前向传播和反向传播中所需执行的浮点运算次数,GFLOPs值越高,表示方法计算复杂度越高。Params则代表存储方法权重所需的内存,反映方法的规模。
3.4 试验结果分析与讨论
为了全面评估MSCR-HRNetV2方法在高分辨率遥感图像上的分割效果,首先对优化后的模块在数据集1、2上进行了详尽的消融试验分析。表 1列出所有评估指标均为基于验证集的试验结果。将增加SE模块后的方案定义为HRNetV2_A,增加MSCR方法后的方案定义为HRNetV2_B,同时使用了SE模块和MSCR方法的最终的改进方案定义为MSCR-HRNetV2。在数据集1上,与HRNetV2相比,HRNetV2_A、HRNetV2_B、MSCR-HRNetV2的MIoU分别提高了1.64%、2.25%、3.13%;在数据集2上,与HRNetV2相比,HRNetV2_A、HRNetV2_B、MSCR-HRNetV2的MIoU分别提高了1.66%、1.28%、2.63%;试验结果证明了SE模块和MSCR方法可以显著增加方法语义分割性能,尤其是结合两者的最终方案MSCR-HRNetV2表现最佳,证明了这2种方法在高分辨率遥感图像分割任务中的有效性。
表 1 消融试验结果MIoUTable 1. MIoUs of ablation experiment results% 方法 SE MSCR 数据集1 数据集2 HRNetV2 78.24 73.33 HRNetV2_A √ 79.88 74.69 HRNetV2_B √ 80.49 74.61 MSCR-HRNetV2 √ √ 81.37 75.96 为了全面评估MSCR-HRNetV2在各类目标识别性能上的提升,对比分析了HRNetV2与MSCR-HRNetV2在数据集1、2上各类别的交并比,结果如表 2、3所示,其中所有指标均是验证数据集上的结果。在数据集1、2上,MSCR-HRNetV2在所有类别上的交并比均优于HRNetV2,证明了MSCR-HRNetV2具有较强的鲁棒性和泛化能力;在数据集1上,铁路线、铁路边坡、房屋、植被、荒地上的交并比分别提高了4.30%、3.79%、4.02%、1.41%、0.48%,在铁路线和铁路边坡这2个重点关注的类别上提升明显;在数据集2中,汽车、树木、低矮植被、建筑、不透水表面上的交并比分别提高4.04%、1.46%、1.69%、0.92%、6.14%,在不透水表面上有较高提升。
表 2 数据集1中各类别目标MIoU对比Table 2. Target MIoU comparison of each category on dataset 1% 类别 HRNetV2 MSCR-HRNetV2 铁路线 78.08 82.41 铁路边坡 77.90 81.69 房屋 68.86 72.88 植被 86.46 88.90 荒地 93.53 94.01 表 3 数据集2中各类别目标MIoU对比Table 3. Target MIoU comparison of each category on dataset 2% 类别 HRNetV2 MSCR-HRNetV2 汽车 77.52 81.56 树木 71.51 72.97 低矮植被 71.97 73.66 建筑 89.26 90.18 不透水表面 49.70 55.84 为了验证所设计方法的性能,以数据集1为例,图 5展示了训练和验证阶段损失函数的变化趋势,可以看出:随着训练轮次的增加,训练与测试损失均呈下降趋势,表明方法在逐渐学习并适应训练数据,同时保持对未知验证数据的泛化能力;训练损失与测试损失之间没有大的差异,2条曲线趋向平稳,且未出现训练损失持续下降而测试损失上升的情况,表明方法的泛化性能良好,未出现严重过拟合现象。
为更准确、直观地验证MSCR-HRNetV2方法的性能,将其与UNet、DeepLabV3+和PSPNet在2个数据集进行了对比试验。所有对比试验均遵循上述的训练策略,并采用MIoU和MPA作为评价指标,对比试验结果如表 4所示。
表 4 MSCR-HRNetV2与其他方法比较结果Table 4. Comparison results of MSCR-HRNetV2 and other methods% 方法 MIoU MPA 数据集1 数据集2 数据集1 数据集2 UNet 74.88 72.06 85.65 82.72 DeepLabV3+ 77.51 71.05 88.24 81.30 PSPNet 72.24 68.76 84.73 79.24 HRNetV2 78.24 73.33 89.21 83.29 MSCR-HRNetV2 81.37 75.96 90.43 85.30 在数据集1上,MSCR-HRNetV2的MIoU达到了81.37%,相较于UNet、DeepLabV3+和PSPNet,分别提升了6.49%、3.86%和9.13%;MSCR-HRNetV2在MPA指标上也达到了90.43%,比HRNetV2提高1.22%。在数据集2上,MSCR-HRNetV2同样表现优异,取得最优的性能指标,其中MIoU和MPA分别达到了75.96%和85.30%,显著超越了其他方法。
此外,本研究对各方法的计算复杂度进行了统计,结果如表 5所示:MSCR-HRNetV2在方法复杂性方面相较于HRNetV2有所增加,虽然提升了性能上,但方法复杂度仍高于UNet以外的其他方法;未来研究的重点在于如何在尽可能减少方法复杂度增加的情况下,进一步提升方法性能。
表 5 不同方法的参数数量和GFLOPs的比较Table 5. Comparison of params and GFLOPs of different methods方法 参数数量/106 GFLOPs UNet 24.891 397.095 DeepLabV3+ 5.814 46.494 PSPNet 2.376 5.301 HRNetV2 9.638 32.831 MSCR-HRNetV2 9.750 36.593 对MSCR-HRNetV2方法在数据集1、2上的语义分割结果进行可视化,如图 6、7所示,可见:在数据集1上的测试中,UNet等方法经常无法区分荒地和铁路边坡,且常常忽略铁路边坡的凹陷区域,导致在植被和房屋区域的识别上出现遗漏,凸显了这些方法在精确边缘检测和复杂区域识别方面的局限性;在数据集2上,这些方法对低矮植被和不透水表面的预测经常遗漏大量细节,进一步验证了它们在处理具有复杂纹理或相似颜色的区域时的不足。相较而言,本文提出的MSCR-HRNetV2方法,通过整合自注意力机制和多尺度一致性正则化,显著增强了特征区分能力,减少了对特定尺度的依赖,从而有效提高了对细微结构和边缘区域的识别精度,因此,MSCR-HRNetV2在数据集1、2上均展现出卓越的预测性能。
4. 结语
(1) 针对铁路遥感图像数据集的缺失,为实现铁路交通可再生能源自然禀赋供给潜力的精确评估,本文构建了一个包含210张分辨率为4 800像素×2 986像素的铁路遥感图像数据集,在此基础上对其进行分割、增强、标注等操作,为智能识别铁路沿线的清洁自洽能源宜能空间提供了提供了坚实的数据支持,以期为铁路清洁能源的开发利用提供技术支持。
(2) 考虑到高分辨率遥感图像处理领域中存在多尺度融合单元通道信息不兼容的问题,本研究利用自注意力机制模块,通过动态调整特征间的权重分配,能够更精确地识别和融合来自不同尺度的信息,提高方法在处理复杂遥感场景中的表现,这一改进显著提升了方法对高分辨率遥感图像的解析能力。
(3) 针对不同尺度高分辨率遥感图像的预测结果存在差异,本研究提出了多尺度一致性正则化方法,通过对各尺度图像的特征进行正则化约束,确保在不同分辨率下方法的预测结果保持高度一致,提高了方法对复杂遥感场景的适应能力和泛化性能。
(4) 未来的研究将从以下2个方面进行改进和拓展:通过引入更高效的网络结构,改进语义分割模型在边缘检测方面的性能,以增强方法的效率和鲁棒性;扩展铁路遥感图像数据集,引入大量未标注的数据,利用迁移学习等方法以提高方法性能和泛化能力。
-
表 1 消融试验结果MIoU
Table 1. MIoUs of ablation experiment results
% 方法 SE MSCR 数据集1 数据集2 HRNetV2 78.24 73.33 HRNetV2_A √ 79.88 74.69 HRNetV2_B √ 80.49 74.61 MSCR-HRNetV2 √ √ 81.37 75.96 表 2 数据集1中各类别目标MIoU对比
Table 2. Target MIoU comparison of each category on dataset 1
% 类别 HRNetV2 MSCR-HRNetV2 铁路线 78.08 82.41 铁路边坡 77.90 81.69 房屋 68.86 72.88 植被 86.46 88.90 荒地 93.53 94.01 表 3 数据集2中各类别目标MIoU对比
Table 3. Target MIoU comparison of each category on dataset 2
% 类别 HRNetV2 MSCR-HRNetV2 汽车 77.52 81.56 树木 71.51 72.97 低矮植被 71.97 73.66 建筑 89.26 90.18 不透水表面 49.70 55.84 表 4 MSCR-HRNetV2与其他方法比较结果
Table 4. Comparison results of MSCR-HRNetV2 and other methods
% 方法 MIoU MPA 数据集1 数据集2 数据集1 数据集2 UNet 74.88 72.06 85.65 82.72 DeepLabV3+ 77.51 71.05 88.24 81.30 PSPNet 72.24 68.76 84.73 79.24 HRNetV2 78.24 73.33 89.21 83.29 MSCR-HRNetV2 81.37 75.96 90.43 85.30 表 5 不同方法的参数数量和GFLOPs的比较
Table 5. Comparison of params and GFLOPs of different methods
方法 参数数量/106 GFLOPs UNet 24.891 397.095 DeepLabV3+ 5.814 46.494 PSPNet 2.376 5.301 HRNetV2 9.638 32.831 MSCR-HRNetV2 9.750 36.593 -
[1] DALALA Z, AL-OMARI M, AL-ADDOUS M, et al. Increased renewable energy penetration in national electrical grids constraints and solutions[J]. Energy, 2022, 246: 123361. doi: 10.1016/j.energy.2022.123361 [2] 艾国乐, 郝小礼, 刘仙萍, 等. 高速铁路上空安装光伏系统的节能潜力研究[J]. 太阳能学报, 2023, 44(2): 409-417.AI Guo-le, HAO Xiao-li, LIU Xian-ping, et al. Energy saving potential research of photovoltaic system installed over high-speed railway[J]. Acta Energiae Solaris Sinica, 2023, 44(2): 409-417. (in Chinese) [3] 张舜, 张蜇. 基于光伏发电的铁路与新能源融合潜力评估[J]. 中国铁路, 2023(11): 64-71.ZHANG Shun, ZHANG Zhe. Evaluation of the potential application of new energy in the railway sector based on PV power generation[J]. China Railway, 2023(11): 64-71. (in Chinese) [4] LI Jian, CUI Min. Application of solar PV grid-connected power generation system in Shanghai rail transit[C]//IEEE. 2018 China International Conference on Electricity Distribution. New York: IEEE, 2018: 110-113. [5] ZHONG Zhi-ming, ZHANG Yong-xin, HONG Shen, et al. Optimal planning of distributed photovoltaic generation for the traction power supply system of high-speed railway[J]. Journal of Cleaner Production, 2020, 263: 121394. doi: 10.1016/j.jclepro.2020.121394 [6] NING Fu-wei, JI Li, MA Jing, et al. Research and analysis of a flexible integrated development model of railway system and photovoltaic in China[J]. Renewable Energy, 2021, 175: 853-867. doi: 10.1016/j.renene.2021.04.119 [7] CHEN Zhu-jun, JIANG Ming-kun, QI Ling-fei, et al. Using existing infrastructures of high-speed railways for photovoltaic electricity generation[J]. Resources, Conservation and Recycling, 2022, 178: 106091. doi: 10.1016/j.resconrec.2021.106091 [8] TANG Yu-qi, ZHANG Liang-pei. Urban change analysis with multi-sensor multispectral imagery[J]. Remote Sensing, 2017, 9(3): 252. doi: 10.3390/rs9030252 [9] WU Lin-shan, LU Ming, FANG Le-yuan. Deep covariance alignment for domain adaptive remote sensing image segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-11. [10] PAN Shao-ming, TAO Yu-long, NIE Cong-chong, et al. PEGNet: progressive edge guidance network for semantic segmentation of remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2020(99): 1-5. [11] 常秀红, 李纯斌, 吴静, 等. 基于优化HRNetV2的高分辨率遥感影像土地利用自动分类[J]. 中国土地科学, 2022, 36(2): 96-105.CHANG Xiu-hong, LI Chun-bin, WU Jing, et al. Automatic land use classification based on optimized HRNetV2 High-resolution remote sensing images[J]. China Land Science, 2022, 36(2) : 96-105. (in Chinese) [12] RADMAN A, ZAINAL N, SUANDI S A. Automated segmentation of iris images acquired in an unconstrained environment using HOG-SVM and GrowCut[J]. Digital Signal Processing, 2017, 64: 60-70. doi: 10.1016/j.dsp.2017.02.003 [13] THANH NOI P, KAPPAS M. Comparison of random forest, K-nearest neighbor, and support vector machine classifiers for land cover classification using Sentinel-2 imagery[J]. Sensors, 2017, 18(1): 18. doi: 10.3390/s18010018 [14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386 [15] LIN Guo-sheng, MILAN A, SHEN Chun-hua, et al. Refinenet: multi-path refinement networks for high-resolution semantic segmentation[C]//IEEE. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 1925-1934. [16] ZHAO Heng-shuang, SHI Jian-ping, QI Xiao-juan, et al. Pyramid scene parsing network[C]//IEEE. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2881-2890. [17] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. doi: 10.1109/TPAMI.2017.2699184 [18] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv, 2017, DOI: 10.48550/arXiv.1706.05587. [19] CHEN L C, ZHU Yu-kun, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//ECCV. Proceedings of the 2018 European Conference on Computer Vision. Munich: ECCV, 2018: 801-818. [20] WANG Jing-dong, SUN Ke, CHENG Tian-heng, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3349-3364. doi: 10.1109/TPAMI.2020.2983686 [21] BAI Hai-wei, CHENG Jian, HUANG Xia, et al. HCANet: a hierarchical context aggregation network for semantic segmentation of high-resolution remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5. [22] PANG Shi-yan, SHI Ye-peng, HU Han-chun, et al. PTRSegNet: a patch-to-region bottom-up pyramid framework for the semantic segmentation of large-format remote sensing images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 3664-3673. doi: 10.1109/JSTARS.2024.3352578 [23] WANG Xiao-feng, KANG Meng-lei, CHEN Yan, et al. Adaptive local cross-channel vector pooling attention module for semantic segmentation of remote sensing imagery[J]. Remote Sensing, 2023, 15(8): 1980. doi: 10.3390/rs15081980 [24] GUO Yong-jie, WANG Feng, XIANG Yu-ming, et al. Semisupervised semantic segmentation with certainty-aware consistency training for remote sensing imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 2900-2914. doi: 10.1109/JSTARS.2023.3255553 [25] SUN Ke, XIAO Bin, LIU Dong, et al. Deep high-resolution representation learning for human pose estimation[C]//IEEE. Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 5693-5703. [26] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//IEEE. Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132-7141. [27] LUO Xiang-de, WANG Guo-tai, LIAO Wen-jun, et al. Semi-supervised medical image segmentation via uncertainty rectified pyramid consistency[J]. Medical Image Analysis, 2022, 80: 102517. doi: 10.1016/j.media.2022.102517 [28] CHENG Gong, HAN Jun-wei, LU Xiao-qiang. Remote sensing image scene classification: benchmark and state of the art[J]. Proceedings of the IEEE, 2017, 105(10): 1865-1883. doi: 10.1109/JPROC.2017.2675998 [29] TENG Jing, LI Long-kai, JIANG Ya-jun, et al. A review of clean energy exploitation for railway transportation systems and its enlightenment to China[J]. Sustainability, 2022, 14(17): 10740. doi: 10.3390/su141710740 [30] JIANG Bao-de, AN Xiao-ya, XU Shao-fen, et al. Intelligent image semantic segmentation: a review through deep learning techniques for remote sensing image analysis[J]. Journal of the Indian Society of Remote Sensing, 2023, 51(9): 1865-1878. doi: 10.1007/s12524-022-01496-w -