基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法

朱晓荣; 贺楚闳

doi:10.11999/JEIT231103

基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法

doi: 10.11999/JEIT231103

朱晓荣^,,
贺楚闳

南京邮电大学通信与信息工程学院南京 210003

基金项目: 国家自然科学基金(92367102, 92067101)，江苏省重点研发计划(BE2021013-3)

详细信息

作者简介:
朱晓荣：女，博士，教授，研究方向为5G/6G通信系统、物联网、区块链等关键技术及系统研发

贺楚闳：男，硕士生，研究方向为无线通信、5G/6G网络、多维资源调度等

通讯作者:
朱晓荣　xrzhu@njupt.edu.cn

中图分类号: TN915.85
计量
- 文章访问数: 335
- HTML全文浏览量: 201
- PDF下载量: 70
- 被引次数: 36
出版历程
- 收稿日期: 2023-10-10
- 修回日期: 2024-02-04
- 网络出版日期: 2024-02-26
- 刊出日期: 2024-07-29

Joint Routing and Resource Scheduling Algorithm for Large-scale Multi-mode Mesh Networks Based on Reinforcement Learning

ZHU Xiaorong^,,
HE Chuhong

College of Telecommunication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China

Funds: The National Natural Science Foundation of China (92367102, 92067101), The Key R&D Plan of Jiangsu Province (BE2021013-3)

摘要

摘要: 为了平衡新型电力系统中大规模多模Mesh网络的传输可靠性和效率，该文在对优化问题进行描述和分析的基础上提出一种基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法，分为两个阶段。在第1阶段中，根据网络拓扑结构信息和业务需求，利用一种多条最短路径路由算法，输出所有最短路径。在第2阶段中，提出一种基于多臂老虎机(MAB)的资源调度算法，该算法基于得到的最短路径集合构建MAB的摇臂，然后根据业务需求计算回报，最终给出最优的路由选择及资源调度方式用于业务传输。仿真结果表明，所提算法能够满足不同的业务传输需求，实现端到端路径的平均时延和平均传输成功率的高效平衡。
- Mesh网络 /
- 路由选择 /
- 资源调度 /
- 多臂老虎机 /
- 强化学习
Abstract: In order to balance the transmission reliability and efficiency of large-scale multi-mode mesh networks in the new power system, a two-stage algorithm is proposed based on reinforcement learning for joint routing selection and resource scheduling in large-scale multi-mode mesh networks, building upon the description and analysis of optimization problems. In the first stage, based on the network topology information and service requirements, a multi shortest path routing algorithm is utilized to generate all the shortest paths. In the second stage, a resource scheduling algorithm based on Multi-Armed Bandit (MAB) is proposed. The algorithm constructs the arms of the MAB based on the obtained set of shortest paths, then calculates the reward according to the service demands, and finally gives the optimal route selection and resource scheduling mode for service transmission. Simulation results show that the proposed algorithm can meet different service transmission requirements, and achieve an efficient balance between the average end-to-end path delay and the average transmission success rate.
- Mesh networks /
- Routing selection /
- Resource scheduling /
- Multi-Armed Bandit (MAB) /
- Reinforcement learning

HTML全文

1. 引言

合成孔径雷达(Synthetic Aperture Radar, SAR)是一种主动式的对地观测系统，能够全天时全天候对地观测，广泛应用于民用监测领域和军事侦察领域。近年来，随着SAR领域相关技术的发展，对SAR图像进行快速准确的目标检测是该领域的关键技术，也是目前的技术研究热点。

现有的SAR图像目标检测方法中，双参数CFAR检测算法^[1-3]是一种应用广泛的检测方法。该方法要求SAR图像中目标与背景杂波的对比度较高，并且假定背景杂波服从高斯分布，同时需要根据目标大小设置参考窗尺寸。在场景简单的情况下，该方法的检测效果较好，但是在复杂场景下检测性能较差。

随着深度学习技术的发展，卷积神经网络(Convolutional Neural Network, CNN)^[4-9]的特征提取能力不断提升，基于CNN的目标检测算法^[10-12]层出不穷。基于CNN的目标检测方法具有强大的特征提取能力和检测性能，因此将其应用于SAR图像目标检测能够获得较高的性能。文献[13]提出的基于CNN的SAR图像目标检测方法，可以在训练数据充足的情况下获得优异的检测性能，但是网络的训练依赖于切片级标记的训练样本以及扩充数据集，在切片级训练样本数量少的情况下，该方法的性能不佳。

现有的SAR图像目标检测方法依赖于大量的切片级标记训练样本，然而实际中对样本进行切片级标记十分耗时耗力。训练样本指训练时输入网络的SAR图像，切片级标记是对SAR图像中感兴趣目标的位置进行标记。对SAR图像进行切片级标记需要人工观察图像，在图像中复杂的人造杂波和自然杂波干扰的情况下，对感兴趣目标的位置和类别进行标记，人工标记的速度很慢；有的目标与杂波的区分度不高，人工标记很有可能漏标或者错标。相比之下，对SAR图像进行图像级标记较为容易，只需要标记SAR图像中是否含有感兴趣目标，不需要对目标位置进行标记。因此，在切片级标记的训练样本数量少的情况下，使用半监督学习方法对图像级标记的训练样本进行有效利用，是提升目标检测性能的一种解决方案。

早期的半监督学习方法主要利用人工特征和分类器进行自学习，文献[14]提出一种基于半监督自学习的目标检测方法，该方法首先对训练图像提取疑似目标切片，并对部分切片进行标记，接着利用标记样本训练分类器，然后利用训练好的分类器对未标记的切片进行分类，将分类置信度较高的样本加入到有标记样本集中，最后用更新的有标记样本集重新训练分类器。上述过程迭代进行直到不存在无标记样本。该方法在仅有少量目标切片标记的情况下，可以取得较好的性能，但是该方法需要选择合适的特征和分类器，在实际应用中较为困难。

将半监督学习方法与深度网络进行结合，可以避免选择特征和分类器的问题，并且网络的特征提取和分类器联合训练，可以取得较好的性能。文献[15]提出一种基于卷积神经网络的半监督学习方法，该方法提出候选区域提取网络和定位网络来提取候选区域和定位飞机，利用半监督学习框架从原始图像中自动挖掘和扩充训练数据集。该方法在对训练图像进行少量目标级标记的情况下，可以取得较好的性能，但是该方法仅从原始图像中挖掘负样本，会造成正负切片比例不均衡的问题，对结果造成不利影响；另外，该方法预测的目标尺寸固定，不能针对目标自动修正尺寸，对目标位置的预测不够精确。

针对以上问题，本文基于Faster R-CNN目标检测框架^[12]，在切片级标记SAR图像数量较少的情况下，将图像级标记SAR图像有效利用，提出一种基于CNN的半监督SAR图像目标检测方法。本文的主要工作包括：(1)基于Faster R-CNN目标检测框架，提出一种迭代挑选正负切片和训练网络交替进行的半监督学习方法，降低了网络对切片级标记样本的依赖程度；(2)通过网络获取负包，并将负包中的负切片加入候选区域集中，提高负切片的数量和多样性。由于本文方法同时挑选正切片和负切片，可以保证正负切片的比例均衡；此外，本文方法使用多任务深度网络，可以同时预测类别和位置，能够针对不同目标自适应地预测出准确的尺寸，对目标位置的预测较为精确。基于实测数据的实验结果表明，本文方法可以有效提升目标检测的性能，其性能与使用全部样本进行切片级标记的全监督方法的性能相差不大。

2. 基于CNN的半监督SAR目标检测方法

本文提出的基于CNN的半监督SAR图像目标检测方法如图1所示。

图 1 半监督SAR图像目标检测方法

下载: 全尺寸图片幻灯片

本文方法的网络结构主要包括候选区域提取网络和检测网络。候选区域提取网络对SAR图像进行特征提取，并获得潜在的候选区域；然后将候选区域送入检测网络，检测网络对候选区域进一步分类和位置调整，获得最终的检测结果。

如图1，本文方法的训练过程分为3步：第1步使用蓝色框和蓝色箭头表示，使用切片级标记的SAR图像对候选区域提取网络和检测网络进行训练，并获得这些图像对应的候选区域集；第2步使用黄色框和黄色箭头表示，将图像级标记的杂波SAR图像输入网络，对输出切片进行挑选得到负包，将负包中的杂波切片加入候选区域集；第3步使用绿色框和绿色箭头表示，将图像级标记的目标SAR图像输入网络，对输出的正负切片进行挑选并去重复，然后挑选的切片加入到候选区域集中，最后使用更新的候选区域集对网络进行训练。第3步需要交替迭代进行直到收敛。

接下来分别介绍本文方法的网络结构和半监督学习方法。

2.1 网络结构

目标检测网络的网络结构主要包括候选区域提取网络和检测网络。候选区域提取网络和检测网络共享特征提取网络。

特征提取网络的结构如图2所示，该网络有3个卷积层，每个卷积层后面接着批归一化(Batch Normalization, BN)^[16]层和修正线性单元(Rectified Linear Unit, ReLU)^[17]层，前两个ReLU层的后面使用池化层对特征进行降维，3个卷积层的卷积核个数分别是64, 128和256，卷积核大小分别是11×11, 7×7和3×3，卷积步长分别是2, 1和1。

图 2 特征提取网络

下载: 全尺寸图片幻灯片

候选区域提取网络通过特征提取网络提取图像的特征，然后使用一个滑动的小网络，通过滑动窗口的方式访问特征图的每个位置，使用每个位置的特征预测得到候选区域。这个滑动的小网络将 $n \times n$ 大小的滑动窗口对应的特征作为输入，通过全连接映射到一个低维的特征，然后将低维特征送入两个全连接层，分别是边框回归层和分类层，全连接层的输出是预测的候选区域。

检测网络通过特征提取网络提取图像的特征，使用ROI池化获得候选区域对应的特征，然后将特征通过全连接层对候选区域进一步分类和位置调整。ROI池化首先在特征图上截取候选区域对应的特征块，然后将特征块均匀划分为 $m \times m$ 个小格，对每个小格通过最大值池化降维，得到尺寸为 $m \times m$ 的特征。

2.2 半监督学习

2.2.1 半监督学习训练过程

本文提出的基于CNN的半监督SAR图像目标检测方法如图1所示，网络的半监督训练过程分为3步，具体算法步骤如下：

步骤 1

(1) 使用切片级标记的SAR图像，通过4步训练法^[12]对候选区域提取网络和检测网络进行训练。

(2) 将切片级标记的SAR图像输入训练好的候选区域提取网络，网络的输出是输入图像对应的候选区域，通过与真实切片级标记进行比对，获得每个候选区域的标签，即可得到切片级标记的SAR图像对应的正切片和负切片，构成初始候选区域集。

步骤 2

将图像级标记的SAR图像集中的杂波类图像输入步骤1训练好的目标检测网络中，对网络的输出切片进行选择得到负包，将负包中的杂波切片加入候选区域集。

步骤 3

(1) 将图像级标记的SAR图像集中的目标类图像输入目标检测网络，对输出结果进行NMS去重复处理，得到检测结果，检测结果包括预测得到的正切片和负切片。

(2) 使用切片挑选模块对检测结果中的正负切片进行挑选，首先挑选出置信度大于阈值的切片，然后去掉与候选区域集中已有切片重复的切片，得到挑选出的切片。如果挑选出的切片数量占候选区域集中所有切片数量的比例小于设定的比例阈值，则说明已经收敛，停止训练；否则将挑选出的切片加入候选区域集，并继续进行下一步。

(3) 使用更新后的候选区域集对检测网络再次进行训练。训练时，使用上次训练好的模型进行参数初始化，并使用更新的数据集进行微调，训练好之后对网络进行测试，获得测试准确率，如果准确率与上次训练的准确率相比没有提升，则说明已经收敛，停止训练，否则继续进行下一步。

步骤(1)—步骤(3)交替进行直到收敛。

接下来详细介绍步骤2中的负包生成过程和步骤3中的切片挑选过程。

2.2.2 负包生成过程

将图像级标记的SAR图像集中的杂波图像输入到训练好的目标检测网络中，获取对应的检测结果，因为输入的是杂波图像，所以输出的所有切片都是杂波切片，选择每一幅图像的检测结果中置信度最高的前 $K$ 个杂波切片，作为该杂波图像的杂波切片集，称之为负包。由于此过程需要尽可能挑选出难分的杂波切片，并且要保证候选区域集中目标切片和杂波切片的比例不会失衡，因此 $K$ 不能设置的较高。

将杂波图像输入目标检测网络，可以获得大量尺寸不同并且背景多样的杂波切片，加入的杂波切片可以提升候选区域集中切片的多样性，提升检测网络的泛化能力。

2.2.3 切片挑选过程

将图像级标记的SAR图像集中的目标类图像输入目标检测网络，预测得到其对应的检测结果，检测结果包括每个预测目标切片和杂波切片的分类置信度和边框坐标。

对检测结果进行NMS去重复处理，并选择检测结果中目标切片和杂波切片的分类置信度大于阈值 ${T_{\rm s}}$ 的切片，将挑选的切片与候选区域集中重复的切片删除。接下来介绍判断切片是否为重复切片的方法：

步骤 1　计算初始切片集中的切片与候选区域集中所有切片重叠率的最大值 ${\rm{IOU}}{_{{\rm{max}}}}$ 。

初始切片集中第 $i$ 个切片的 ${\rm{IOU}}{_{{\rm{max}},i}}$ 的计算方法为

${\rm{IOU}}{_{{\rm{max}},i}} = \mathop {\max}\limits_j \left( {\frac{{{{\rm C}_{{\rm{new}},i}} \cap {{\rm C}_{{\rm{old}},j}}}}{{{{\rm C}_{{\rm{new}},i}} \cup {{\rm C}_{{\rm{old}},j}}}}} \right)$

(1)

其中 ${{\rm C}_{{\rm{new}},i}}$ 表示初始切片集中的第 $i$ 个切片， ${{\rm C}_{{\rm{old}},j}}$ 表示候选区域集中的第 $j$ 个切片， ${{\rm C}_{{\rm{new}},i}} \cap {{\rm C}_{{\rm{old}},j}}$ 表示两个切片区域交集的面积， ${{\rm C}_{{\rm{new}},i}} \cup {{\rm C}_{{\rm{old}},j}}$ 表示两个切片区域并集的面积。

步骤 2　如果 ${\rm{IOU}}{_{{\rm{max}},i}}$ 大于设定的阈值 ${\rm{IOU}}{_{\rm{T}}}$ ，则认为该切片是重复的，应该删除掉。

经过阈值挑选和去除重复后，计算挑选出的切片数量与候选区域集中切片数量的比例 $\beta$ 。如果 $\beta$ 大于等于 ${\beta _{\rm{T}}}$ ，说明挑选出的新切片较多，这些新切片可以提升数据集中的切片的数量和多样性，新切片对网络的训练还会有较大的帮助，因此将挑选的切片加入候选区域集。如果 $\beta$ 小于设定的阈值 ${\beta _{\rm{T}}}$ ，说明挑选出的新切片数量非常少，如果将新切片加入候选区域集，更新后的候选区域集与更新前相比差别非常小，训练后网络的泛化能力基本不会提升。所以当 $\beta$ 小于 ${\beta _{\rm{T}}}$ 时，迭代过程终止，半监督学习过程结束。

交替迭代的过程中，如果网络的测试准确率与上次训练的网络准确率相比没有提升，说明此时网络的性能与上次迭代训练好的网络的性能也没有提升，如果使用当前的网络继续挑选切片，挑选出的切片与上次迭代挑选出的切片就会非常相似，那么候选区域集就基本不会更新，再次训练的网络的性能也就不会提升。因此为了减小不必要的训练时间，如果准确率与上次训练的准确率相比没有提升，则说明网络的性能已经达到顶峰，可以停止交替迭代的过程。

3. 实验结果与分析

3.1 实验数据集介绍

MiniSAR实测数据集^[18]和FARADSAR实测数据集^[19]是美国Sandia国家实验室分别在2006年和2015年公开的SAR图像数据集，分辨率为0.1 m×0.1 m，都是场景复杂的地面图像。实验将SAR图像中的车辆目标作为感兴趣目标。图3是MiniSAR数据集和FARADSAR数据集的示例。

图 3 数据集示例

下载: 全尺寸图片幻灯片

3.2 评价准则和实验细节

为了验证本文方法的有效性，使用F1-score作为检测结果的性能评价指标。F1-score的计算公式为

${{P}} = \frac{{\rm TP}}{{{\rm{TP + FP}}}}, R = \frac{{\rm TP}}{{\rm NP}}$

(2)

${{{\rm F1} {\text{-}} {\rm score}}} = \frac{{2 P R}}{{P + R}} \hspace{23pt}$

(3)

其中， ${\rm{TP}}$ 是检测结果中的正确目标个数， ${\rm{FP}}$ 是错误目标个数， ${\rm{NP}}$ 是真实目标个数， $P$ 是检测精度， $R$ 是召回率，F1-score是评价性能的主要指标。实验中随机选择30%的SAR训练子图像进行切片级标记，剩余的图像进行图像级标记。通过10次随机选择样本并进行10次重复实验，将得到的测试结果取平均作为最终的测试结果。实验中挑选切片的阈值 ${T_{\rm{s}}}$ 为0.925，判断是否重复的重叠率阈值 ${\rm{IOU}}{_{\rm{T}}}$ 为0.8，判断网络是否收敛的新切片数量的比例阈值 ${\beta _{\rm{T}}}$ 为0.03。

3.3 切片挑选方案和负包对网络性能的影响

对于MiniSAR数据集，实验对比了使用不同的挑选切片方案的性能，包括只挑选正切片，只挑选负切片，以及正负切片都挑选共3种方案，实验也对比了加入负包对性能的影响，负包是通过杂波SAR图像获得的杂波切片集合，负包数量是指使用杂波SAR子图像的数量。

使用不同的切片挑选方案以及加入负包的数量对应的实验结果如表1所示，表中数字加粗表示对应方案的F1-score最高。

表 1 不同方案的实验结果

负包数量	挑选的切片	$P$	$R$	F1-score
0	正切片	0.6397	0.7500	0.6905
	负切片	0.8833	0.4569	0.6023
	正切片+负切片	0.7387	0.7069	0.7225
10	正切片	0.6797	0.7500	0.7131
	负切片	0.7917	0.4914	0.6064
	正切片+负切片	0.7573	0.6724	0.7123
20	正切片	0.7658	0.7328	0.7489
	负切片	0.8382	0.4914	0.6196
	正切片+负切片	0.8137	0.7155	0.7615
30	正切片	0.8202	0.6293	0.7122
	负切片	0.8413	0.4569	0.5922
	正切片+负切片	0.8675	0.6207	0.7236
40	正切片	0.8111	0.6293	0.7087
	负切片	0.8667	0.4483	0.5909
	正切片+负切片	0.8352	0.6552	0.7343

下载: 导出CSV

| 显示表格

实验结果表明对正切片和负切片都进行挑选的性能最佳。主要原因是只挑选正切片或负切片会使得候选区域集中某种切片的数量越来越多，造成正负切片比例不均衡的问题，影响网络的性能；对正负切片都进行挑选能保证候选区域集中正负切片的数量同时增加，不会造成正负切片的数量比例失衡，还可以提高切片的多样性，提升检测网络的性能。

实验结果还表明，当加入负包的数量增大时，在一定范围内，网络的性能不断提升，超过一定范围，网络的性能就会降低。主要原因是加入的负包提升了候选区域集中负切片的多样性，检测网络就具有更好的泛化性能；如果加入负包的数量过多，那么候选区域集中负切片的数量过多，会造成正负切片比例不均衡的问题，网络的性能就会降低。

3.4 与其他方法的检测结果对比

表2对比了不同方法的实验结果，其中Gaussian-CFAR使用文献[1]中的方法；Faster R-CNN-少部分切片级标记使用文献[13]中的网络，仅使用了少部分切片级标记的训练样本；Faster R-CNN-全部切片级标记使用文献[13]中的网络，对全部训练样本都进行了切片级标记；文献[14]方法使用原文的半监督算法框架，利用CFAR提取疑似切片，使用林肯特征训练SVM分类器；文献[15]方法使用原文的半监督算法框架，使用候选区域提取网络和定位网络，多次迭代挑选负切片并训练网络；本文方法基于Faster R-CNN网络，使用网络挑选杂波切片并得到负包，通过网络迭代挑选正负切片进行半监督学习。

表 2 不同方法的实验结果

不同方法	MiniSAR数据集			FARADSAR数据集
不同方法	$P$	$R$	F1-score	$P$	$R$	F1-score
Gaussian-CFAR	0.3789	0.7966	0.5135	0.2813	0.4671	0.3512
Faster R-CNN-少部分切片级标记	0.6455	0.6121	0.6283	0.7370	0.8813	0.8027
Faster R-CNN-全部切片级标记	0.8073	0.7586	0.7822	0.7760	0.9479	0.8534
文献[14]方法	0.5814	0.9806	0.7285	0.4506	0.7325	0.5580
文献[15]方法	0.4699	0.7480	0.5772	0.3744	0.7945	0.5090
本文方法	0.8137	0.7155	0.7615	0.8035	0.8813	0.8406

下载: 导出CSV

| 显示表格

从表2可以看出，Gaussian-CFAR方法的F1-score非常低，虚警很多，有很多检测结果是错误的；Faster R-CNN-少部分切片级标记的方法仅使用了少量的训练样本，其F1-score较低；文献[14]方法虽然召回率很高，能将大部分目标检测出来，但是检测精度较低，虚警较多；文献[15]方法的召回率较高，但是检测精度较低，虚警也较多；本文方法的检测精度, 召回率和F1-score都较高，相比其他方法有较大优势，本文方法检测虚警量较少，能检测出大部分的目标。对于MiniSAR数据集，本文方法的F1-score相比Faster R-CNN-少部分切片级标记的结果提升了0.1332，仅比Faster R-CNN-全部切片级标记的检测结果低0.0207；对于FARADSAR数据集，本文方法的F1-score相比Faster R-CNN-少部分切片级标记的结果提升了0.0379，仅比Faster R-CNN-全部切片级标记的检测结果低0.0128。因此，本文方法在仅使用少量切片级标记训练样本和大量图像级标记训练样本的情况下，与全监督方法的性能相差不大。

图4，图5，图6，图7，图8和图9分别表示Gaussian-CFAR, Faster R-CNN-少部分切片级标记，Faster R-CNN-全部切片级标记，文献[14]方法，文献[15]方法和本文方法在MiniSAR数据集上的测试结果；图10，图11，图12，图13，图14和图15分别表示上述方法在FARADSAR数据集上的测试结果，由于该数据集的测试图片较多，本节只展示了其中两幅测试图片的结果。图中绿色框表示检测正确的目标，红色框表示检测错误的目标，蓝色框表示未检测到的目标。实验结果表明在建筑物，树木和其它军事目标的区域中，Gaussian-CFAR的虚警非常多，Faster R-CNN-少部分切片级标记的方法的检测结果虚警较多，文献[14]方法和文献[15]方法也有较多虚警；本文方法的检测结果中的虚警最低；在车辆较为集中的区域，Gaussian-CFAR和Faster R-CNN-少部分切片级标记的方法的检测结果含有一些漏警，本文方法的漏警较少；本文方法与Faster R-CNN-全部切片级标记的测试结果相差不大。

图 4 MiniSAR数据集：Gaussian-CFAR的检测结果

下载: 全尺寸图片幻灯片

图 5 MiniSAR数据集：Faster R-CNN-少部分切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 6 MiniSAR数据集：Faster R-CNN-全部切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 7 MiniSAR数据集：文献[14]方法的检测结果

下载: 全尺寸图片幻灯片

图 8 MiniSAR数据集：文献[15]方法的检测结果

下载: 全尺寸图片幻灯片

图 9 MiniSAR数据集：本文方法的检测结果

下载: 全尺寸图片幻灯片

图 10 FARADSAR数据集：Gaussian-CFAR的检测结果

下载: 全尺寸图片幻灯片

图 11 FARADSAR数据集：Faster R-CNN-少部分切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 12 FARADSAR数据集：Faster R-CNN-全部切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 13 FARADSAR数据集：文献[14]方法的检测结果

下载: 全尺寸图片幻灯片

图 14 FARADSAR数据集：文献[15]方法的检测结果

下载: 全尺寸图片幻灯片

图 15 FARADSAR数据集：本文方法的检测结果

下载: 全尺寸图片幻灯片

本文方法性能较高的主要原因有两个方面：第一，本文方法使用半监督学习的方案训练目标检测网络，使用迭代挑选正负切片的方法对图像级标记图像进行有效利用，提升了网络的泛化性能；第二，本文方法通过将负包中的负切片加入候选区域集中，提高了候选区域集中负切片的多样性，提升了网络的泛化性能。

4. 结论

本文研究了利用半监督学习方法对目标检测网络进行训练的方法，解决了现有方法对切片级标记的训练样本依赖程度高的问题。本文所提的半监督学习方法仅需要对训练样本中少部分样本进行切片级标记，剩余大部分样本进行图像级标记。本文方法不依赖于具体的目标检测算法，可以适用于任何两阶段目标检测器。基于实测数据的实验结果证明了在切片级标记训练样本数量少的情况下，本文方法在SAR图像目标检测中可以获得较好的性能，并且使用本文方法训练得到的模型的性能，与全部训练样本切片级标记训练的全监督方法的性能相差不大。

图 1 面向新型电力系统的大规模多模Mesh网络模型

下载: 全尺寸图片幻灯片

图 2 基于MAB的联合路由选择及资源调度算法流程

下载: 全尺寸图片幻灯片

最短路径集合 ${{\mathrm{Path}}^e} = \left\{ {p_1^e,p_2^e,p_3^e,p_4^e} \right\}$ 示例

下载: 全尺寸图片幻灯片

图 4 仿真网络拓扑结构

下载: 全尺寸图片幻灯片

图 5 MAB算法执行过程

下载: 全尺寸图片幻灯片

图 6 随路由汇聚节点传输业务数量不同变化曲线

下载: 全尺寸图片幻灯片

图 7 随网络节点规模不同变化曲线

下载: 全尺寸图片幻灯片

1 改进的宽度优先搜索算法

输入：网络拓扑邻接矩阵 ${\boldsymbol{A}}$ ，源节点 $n_{\mathrm{s}}^e$
(1) 将 $n_{\mathrm{s}}^e$ 放入队列 ${\mathrm{Queue}}$ 中；将 $n_{\mathrm{s}}^e$ 的 ${\rm{Visited}}$ 值设置为 ${\rm{True}}$ ，而其余节点的该值设置为 ${\mathrm{False}}$ ；将 $n_{\mathrm{s}}^e$ 到源节点的最短跳数 ${\rm{HopCount}}(n_{\mathrm{s}}^e)$ 值　　设置为0，而其余节点的该值设置为无穷大；将所有节点的 ${\mathrm{Searched}}$ 值设置为 ${\mathrm{False}}$ ；将每个节点 $n$ 的前置节点数量 ${\rm{FrontCount}}(n)$ 值设　　置为0，表示所有网络节点的前置节点集合 ${\rm{FrontPoint}}(n)$ 中前置节点数量为0
(2) WHILE ${\mathrm{Queue}}$ 不是空集 DO
(3) 　获取 ${\mathrm{Queue}}$ 的队首节点 ${\rm{Head}}$ ，遍历 ${\boldsymbol{A}}$ ，找出 ${\rm{Head}}$ 的所有邻居节点 ${\rm{Neighbo}}{{\mathrm{r}}_z},z = 1,2,\cdots,Z$
(4) 　FOR ${\rm{Neighbo}}{{\mathrm{r}}_z},z = 1,2,\cdots,Z$ DO
(5) 　　IF ${\rm{Neighbo}}{r_z}$ 的 ${\mathrm{Searched}}$ 值为 ${\rm{True}}$ THEN 跳出本次循环
(6) 　　ELSE IF ${\rm{Neighbo}}{{\mathrm{r}}_z}$ 的 ${\rm{Visited}}$ 值为 ${\mathrm{False}}$ THEN
(7) 　　　令 ${\rm{HopCount}}({\rm{Neighbo}}{{\mathrm{r}}_z}) = {\rm{HopCount}}({\rm{Head}}) + 1$ ；将 ${\rm{FrontCount}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ 值加1
把 ${\rm{Head}}$ 存入 ${\rm{FrontPoint}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ 中；把 ${\rm{Neighbo}}{{\mathrm{r}}_z}$ 存入 ${\mathrm{Queue}}$ 中，并将其 ${\rm{Visited}}$ 值设置为 ${\rm{True}}$
(8) 　　ELSE ${\rm{Neighbo}}{{\mathrm{r}}_z}$ 的 ${\rm{Visited}}$ 值为 ${\rm{True}}$ THEN
(9) 　　　IF ${\rm{HopCount}}({\rm{Head}}) + 1 \lt {\rm{HopCount}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ THEN
(10) 　　　　令 ${\rm{HopCount}}({\rm{Neighbo}}{{\mathrm{r}}_z}) = {\rm{HopCount}}({\rm{Head}}) + 1$ ； ${\rm{FrontCount}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ 值保持不变
把 ${\rm{FrontPoint}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ 中最近一个存入的元素替换为 ${\rm{Head}}$
(11) 　　 ELSE IF ${\rm{HopCount}}({\rm{Head}}) + 1 = {\rm{HopCount}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ THEN
(12) 　　　将 ${\rm{FrontCount}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ 值加1；把 ${\rm{Head}}$ 存入 ${\rm{FrontPoint}}({\rm{Neighbo}}{{\mathrm{r}}_z})$ 中
(13) 　　 ELSE 跳出本次循环
(14) 　　 END IF
(15) 　 END IF
(16) END FOR
(17) 将当前 ${\rm{Head}}$ 的 ${\mathrm{Searched}}$ 值设置为 ${\rm{True}}$ ，并将其移出 ${\mathrm{Queue}}$
(18) END WHILE
(19) 按如下方式遍历设置 ${{\boldsymbol{A}}^{\mathrm{s}}}(a_{ij}^{\mathrm{s}})$ 中每个元素 $a_{ij}^{\mathrm{s}}$ 的值： ${a}_{ij}^{{\mathrm{s}}}=\left\{\begin{aligned}& 1,j\in {\rm{FrontPoint}}(i) \\& 0,其他 \end{aligned},i,j\in \mathcal{N}\right.$
输出：最短路径邻接矩阵 ${{\boldsymbol{A}}^{\mathrm{s}}}$

下载: 导出CSV

2 多条最短路径输出算法

输入：最短路径邻接矩阵 ${{\boldsymbol{A}}^s}$ ，源节点 $n_{\mathrm{s}}^e$ 和目的节点 $n_{\mathrm{d}}^e$
(1) 将 $n_{\mathrm{s}}^e$ 压入主栈 ${{\rm{Stack}}_{\rm{main}}}$ ；遍历 ${{\boldsymbol{A}}^s}$ ，将 $n_{\mathrm{s}}^e$ 的邻居节点存入邻居节点列表 ${\rm{Array}}$ ，然后将 ${\rm{Array}}$ 作为栈顶压入辅栈 ${{\rm{Stack}}_{\rm{assist}}}$
(2) WHILE ${{\rm{Stack}}_{\rm{main}}}$ 不是空集 DO
(3) 　获取 ${{\rm{Stack}}_{\rm{assist}}}$ 栈顶，作为新的 ${\rm{Array}}$
(4) 　IF ${\rm{Array}}$ 非空 THEN
(5) 　　获取 ${\rm{Array}}$ 中的首个元素，将其压入 ${{\rm{Stack}}_{\rm{main}}}$ ，并将剩余元素构成的列表重新压入 ${{\rm{Stack}}_{\rm{assist}}}$
(6) 　　查询栈顶元素的 ${\rm{Array}}$ ，将 ${{\rm{Stack}}_{\rm{main}}}$ 中包含的元素从其中剔除，再将其压入 ${{\rm{Stack}}_{\rm{assist}}}$
(7) 　ELSE 将 ${{\rm{Stack}}_{\rm{main}}}$ 和 ${{\rm{Stack}}_{\rm{assist}}}$ 的栈顶元素弹出
(8) 　END IF
(9) 　IF ${{\rm{Stack}}_{\rm{main}}}$ 的栈顶元素与 $n_{\mathrm{d}}^e$ 相等 THEN 将最短路径 $p_u^e = {{\rm{Stack}}_{\rm{main}}}$ 存入 ${{\mathrm{Path}}^e}$ ；将 ${{\rm{Stack}}_{\rm{main}}}$ 和 ${{\rm{Stack}}_{\rm{assist}}}$ 的栈顶元素弹出
(10) END IF
(11) END WHILE
输出：最短路径集合 ${{\mathrm{Path}}^e} = \left\{ {p_1^e,p_2^e,\cdots ,p_U^e} \right\}$

下载: 导出CSV

3 基于MAB的资源调度选择算法

输入：摇臂集合 ${{\mathrm{Arm}}^e}$ ，最大迭代次数 ${T_{\max}}$
(1) 令 $Q({\bf{arm}}_k^e) = 0$ , ${\mathrm{count}}({\bf{arm}}_k^e) = 0$
(2) FOR $t = 1,2,\cdots,{T_{\max}}$ DO
(3) 　根据式(16)更新 $\epsilon(t)$ ，然后按如下方式选择摇臂 ${\mathrm{arm}}_k^e$ ： ${{\mathrm{arm}}}_{k}^{e}=\left\{\begin{aligned}& 从{{\bf{arm}}}_{1}^{e},{{\bf{arm}}}_{2}^{e},\cdots ,{{\bf{arm}}}_{K}^{e}中以均匀分布随机选取，以\varepsilon(t)的概率 \\ & {\underset{{{\bf{arm}}}_{k}^{e}}{{\bf{argmax}}}}{Q}_{t}({{\bf{arm}}}_{k}^{e})，以1-\varepsilon(t)的概率 \end{aligned} \right.$
(4) 　令 ${\mathrm{count}}({\bf{arm}}_k^e) = {\mathrm{count}}({\bf{arm}}_k^e) + 1$
(5) 　根据式(14)计算 ${R_t}({\bf{arm}}_k^e)$ ，然后根据式(15)更新　　　 ${Q_t}({\bf{arm}}_k^e)$
(6) END FOR 　输出：最佳摇臂 ${\bf{arm}}_{{\mathrm{best}}}^e = \mathop {{\mathrm{argmax}}}\limits_{{\bf{arm}}_k^e} Q({\bf{arm}}_k^e)$

下载: 导出CSV

表 1 相关仿真参数设置

参数	最大迭代次数 T_max	探索概率 $\varepsilon(t)$ 初始值 ${\varepsilon}_{{\mathrm{init}}}$	衰减系数 $\chi$	业务包数据量 ${D^e}$	传码率 ${R_{\mathrm{B}}}$	路由汇聚节点排队时延 $T_j^{e,{\mathrm{wait}}}$	时延重要程度 $\alpha$ ，成功率重要程度 $\beta$
数值	2 × K	0.99	6	600 bit	115 200	1～3 ms的随机值	0.5

下载: 导出CSV

参考文献(20)

[1]	BEDI G, VENAYAGAMOORTHY G K, SINGH R, et al. Review of Internet of Things (IoT) in electric power and energy systems[J]. IEEE Internet of Things Journal, 2018, 5(2): 847–870. doi: 10.1109/JIOT.2018.2802704.
[2]	TALEB S M, MERAIHI Y, GABIS A B, et al. Nodes placement in wireless mesh networks using optimization approaches: A survey[J]. Neural Computing and Applications, 2022, 34(7): 5283–5319. doi: 10.1007/s00521–022-06941-y.
[3]	ALOTAIBI E and MUKHERJEE B. A survey on routing algorithms for wireless ad-hoc and mesh networks[J]. Computer Networks, 2012, 56(2): 940–965. doi: 10.1016/j.comnet.2011.10.011.
[4]	WANG Lei, ZHANG Lianfang, SHU Yantai, et al. Multipath source routing in wireless ad hoc networks[C]. 2000 Canadian Conference on Electrical and Computer Engineering. Conference Proceedings. Navigating to a New Era (Cat. No. 00TH8492), Halifax, Canada, 2000: 479–483. doi: 10.1109/CCECE.2000.849755.
[5]	GUO Xiaoyuan, WANG Feng, LIU Jiangchuan, et al. Path diversified multi-QoS optimization in multi-channel wireless mesh networks[J]. Wireless Networks, 2014, 20(6): 1583–1596. doi: 10.1007/s11276-014-0698-x.
[6]	JIA Dongyao, ZOU Shengxiong, LI Meng, et al. Adaptive multi-path routing based on an improved leapfrog algorithm[J]. Information Sciences, 2016, 367/368: 615–629. doi: 10.1016/j.ins.2016.07.021.
[7]	SUN Yaohua, PENG Mugen, ZHOU Yangcheng, et al. Application of machine learning in wireless networks: Key techniques and open issues[J]. IEEE Communications Surveys & Tutorials, 2019, 21(4): 3072–3108. doi: 10.1109/COMST.2019.2924243.
[8]	DI VALERIO V, LO PRESTI F, PETRIOLI C, et al. CARMA: Channel-aware reinforcement learning-based multi-path adaptive routing for underwater wireless sensor networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(11): 2634–2647. doi: 10.1109/JSAC.2019.2933968.
[9]	LIU Qingzhi, CHENG Long, JIA A L, et al. Deep reinforcement learning for communication flow control in wireless mesh networks[J]. IEEE Network, 2021, 35(2): 112–119. doi: 10.1109/MNET.011.2000303.
[10]	NG P C and SHE J. Remote proximity sensing with a novel Q-learning in Bluetooth low energy network[J]. IEEE Transactions on Wireless Communications, 2022, 21(8): 6156–6166. doi: 10.1109/TWC.2022.3147411.
[11]	WANG Jinxin, ZHANG Fan, XIE Zhonglin, et al. Joint bandwidth allocation and path selection in WANs with path cardinality constraints[J]. Journal of Communications and Information Networks, 2021, 6(3): 237–250. doi: 10.23919/JCIN.2021.9549120.
[12]	APPINI N R and REDDY A R. Joint channel assignment and bandwidth reservation using Improved FireFly Algorithm (IFA) in Wireless Mesh Networks (WMN)[J]. Wireless Personal Communications, 2023, 131(1): 455–470. doi: 10.1007/s11277-023-10439-8.
[13]	BINH L H and DUONG T V T. Load balancing routing under constraints of quality of transmission in mesh wireless network based on software defined networking[J]. Journal of Communications and Networks, 2021, 23(1): 12–22. doi: 10.23919/JCN.2021.000004.
[14]	KUMAR R, VENKANNA U, and TIWARI V. Opt-ACM: An optimized load balancing based admission control mechanism for software defined hybrid wireless based IoT (SDHW-IoT) network[J]. Computer Networks, 2021, 188: 107888. doi: 10.1016/j.comnet.2021.107888.
[15]	ALHARBI N, MACKENZIE L, and PEZAROS D. Enhancing graph routing algorithm of industrial wireless sensor networks using the covariance-matrix adaptation evolution strategy[J]. Sensors, 2022, 22(19): 7462. doi: 10.3390/s22197462.
[16]	BAROLLI A, BYLYKBASHI K, QAFZEZI E, et al. A comparison study of Weibull, normal and Boulevard distributions for wireless mesh networks considering different router replacement methods by a hybrid intelligent simulation system[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(8): 10181–10194. doi: 10.1007/s12652-021-03680-1.
[17]	ROZHOŇ V, HAEUPLER B, MARTINSSON A, et al. Parallel breadth-first search and exact shortest paths and stronger notions for approximate distances[C]. Proceedings of the 55th Annual ACM Symposium on Theory of Computing, Orlando, USA, 2023: 321–334. doi: 10.1145/3564246.3585235.
[18]	SILVA N, WERNECK H, SILVA T, et al. Multi-armed bandits in recommendation systems: A survey of the state-of-the-art and future directions[J]. Expert Systems with Applications, 2022, 197: 116669. doi: 10.1016/j.eswa.2022.116669.
[19]	LEE S, YU H, and LEE H. Multiagent Q-learning-based multi-UAV wireless networks for maximizing energy efficiency: Deployment and power control strategy design[J]. IEEE Internet of Things Journal, 2022, 9(9): 6434–6442. doi: 10.1109/JIOT.2021.3113128.
[20]	ZAATOURI I, ALYAOUI N, GUILOUFI A B, et al. Design and performance analysis of objective functions for RPL routing protocol[J]. Wireless Personal Communications, 2022, 124(3): 2677–2697. doi: 10.1007/s11277-022-09484-6.

施引文献

期刊类型引用(19)

1.	姜杰，闫文君，刘凯，张立民. 基于IC-GANs的红外舰船目标识别方法. 兵器装备工程学报. 2025(01): 277-284 . 百度学术
2.	郭瑞香. 基于感兴趣区域池化的SAR图像目标检测算法. 邵阳学院学报(自然科学版). 2023(02): 29-36 . 百度学术
3.	袁翔，程塨，李戈，戴威，尹文昕，冯瑛超，姚西文，黄钟泠，孙显，韩军伟. 遥感影像小目标检测研究进展. 中国图象图形学报. 2023(06): 1662-1684 . 百度学术
4.	谢灶芳. 基于显著性引导SSD算法的SAR图像目标检测. 地理空间信息. 2023(08): 5-8 . 百度学术
5.	许述文，茹宏涛. 基于标签传播算法的海面漂浮小目标检测方法. 电子与信息学报. 2022(06): 2119-2126 . 本站查看
6.	杜兰，王梓霖，郭昱辰，杜宇昂，严俊坤. 结合强化学习自适应候选框挑选的SAR目标检测方法. 雷达学报. 2022(05): 884-896 . 百度学术
7.	崔雷，庄磊，张泽栋，魏松杰. 基于特征叠加网络的SAR海上舰船运动状态感知方法. 上海航天(中英文). 2022(06): 75-83 . 百度学术
8.	王红卫，董鹏宇，陈游，周一鹏，肖冰松. 半监督条件下基于朴素贝叶斯和Choi-Williams时频分布能量积累的雷达信号识别. 电子与信息学报. 2021(03): 589-597 . 本站查看
9.	李璐，杜兰，何浩男，李晨，邓盛. 基于深度森林的多级特征融合SAR目标识别. 电子与信息学报. 2021(03): 606-614 . 本站查看
10.	赵建辉，张蓓，李宁，郭拯危. 基于Sentinel-1/2遥感数据的冬小麦覆盖地表土壤水分协同反演. 电子与信息学报. 2021(03): 692-699 . 本站查看
11.	陈嘉琪，刘祥梅，李宁，张燕. 一种超分辨SAR图像水域分割算法及其应用. 电子与信息学报. 2021(03): 700-707 . 本站查看
12.	洪汉玉，吴世康，时愈，吴锦梦，孙春生. 非合作水雷目标图像非均匀强噪声去除方法. 红外与激光工程. 2021(03): 251-260 . 百度学术
13.	李维鹏，杨小冈，李传祥，卢瑞涛，黄攀. 红外目标检测网络改进半监督迁移学习方法. 红外与激光工程. 2021(03): 243-250 . 百度学术
14.	刘畅，朱卫纲. 基于卷积神经网络的SAR图像目标检测综述. 兵器装备工程学报. 2021(03): 15-21 . 百度学术
15.	王迪聪，白晨帅，邬开俊. 基于深度学习的视频目标检测综述. 计算机科学与探索. 2021(09): 1563-1577 . 百度学术
16.	高宇歌，杨海涛，王晋宇，李高源，张长弓，冯博迪. 联合知识与CNN的遥感影像目标检测研究综述. 计算机工程与应用. 2021(18): 65-74 . 百度学术
17.	李昊，周帅. 基于深度学习的变电设备缺陷检测. 云南电力技术. 2021(06): 17-20 . 百度学术
18.	杜兰，王兆成，王燕，魏迪，李璐. 复杂场景下单通道SAR目标检测及鉴别研究进展综述. 雷达学报. 2020(01): 34-54 . 百度学术
19.	付哲泉，李尚生，李相平，但波，王旭坤. 基于高效可扩展改进残差结构神经网络的舰船目标识别技术. 电子与信息学报. 2020(12): 3005-3012 . 本站查看

其他类型引用(17)

资源附件(0)

访问统计

图(7) / 表(4)

计量

文章访问数: 335
HTML全文浏览量: 201
PDF下载量: 70
被引次数: 36

1. 引言
2. 基于CNN的半监督SAR目标检测方法
2.1 网络结构
2.2 半监督学习
3. 实验结果与分析
3.1 实验数据集介绍
3.2 评价准则和实验细节
3.3 切片挑选方案和负包对网络性能的影响
3.4 与其他方法的检测结果对比
4. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法

doi: 10.11999/JEIT231103

作者简介:
朱晓荣：女，博士，教授，研究方向为5G/6G通信系统、物联网、区块链等关键技术及系统研发

贺楚闳：男，硕士生，研究方向为无线通信、5G/6G网络、多维资源调度等

通讯作者:
朱晓荣　xrzhu@njupt.edu.cn

计量

Joint Routing and Resource Scheduling Algorithm for Large-scale Multi-mode Mesh Networks Based on Reinforcement Learning

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

2.2.1 半监督学习训练过程

2.2.2 负包生成过程

2.2.3 切片挑选过程

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

期刊类型引用(19)

其他类型引用(17)

计量

目录

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

留言板

基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法

doi: 10.11999/JEIT231103

作者简介: 朱晓荣：女，博士，教授，研究方向为5G/6G通信系统、物联网、区块链等关键技术及系统研发 贺楚闳：男，硕士生，研究方向为无线通信、5G/6G网络、多维资源调度等

通讯作者: 朱晓荣 xrzhu@njupt.edu.cn

计量

出版历程

Joint Routing and Resource Scheduling Algorithm for Large-scale Multi-mode Mesh Networks Based on Reinforcement Learning

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

2.2.1 半监督学习训练过程

2.2.2 负包生成过程

2.2.3 切片挑选过程

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

期刊类型引用(19)

其他类型引用(17)

计量

出版历程

目录

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

作者简介:
朱晓荣：女，博士，教授，研究方向为5G/6G通信系统、物联网、区块链等关键技术及系统研发

贺楚闳：男，硕士生，研究方向为无线通信、5G/6G网络、多维资源调度等

通讯作者:
朱晓荣　xrzhu@njupt.edu.cn