高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

有向无环图区块链辅助深度强化学习的智能驾驶策略优化算法

黄晓舸 李春磊 黎文静 梁承超 陈前斌

罗洪艳, 朱子岩, 林睿, 林臻, 廖彦剑. 基于掩盖效应和梯度信息的无参考噪声图像质量评价改进算法[J]. 电子与信息学报, 2019, 41(1): 210-218. doi: 10.11999/JEIT180195
引用本文: 黄晓舸, 李春磊, 黎文静, 梁承超, 陈前斌. 有向无环图区块链辅助深度强化学习的智能驾驶策略优化算法[J]. 电子与信息学报, 2024, 46(12): 4363-4372. doi: 10.11999/JEIT240407
Hongyan LUO, Ziyan ZHU, Rui LIN, Zhen LIN, Yanjian LIAO. Improved No-reference Noisy Image Quality Assessment Based on Masking Effect and Gradient Information[J]. Journal of Electronics & Information Technology, 2019, 41(1): 210-218. doi: 10.11999/JEIT180195
Citation: HUANG Xiaoge, LI Chunlei, LI Wenjing, LIANG Chengchao, CHEN Qianbin. An Intelligent Driving Strategy Optimization Algorithm Assisted by Direct Acyclic Graph Blockchain and Deep Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2024, 46(12): 4363-4372. doi: 10.11999/JEIT240407

有向无环图区块链辅助深度强化学习的智能驾驶策略优化算法

doi: 10.11999/JEIT240407
基金项目: 国家自然科学基金(62371082, 62001076),广西科技计划(AB24010317),重庆市自然科学基金(CSTB2023NSCQ-MSX0726, cstc2020jcyj-msxmX0878)
详细信息
    作者简介:

    黄晓舸:女,博士,研究方向为移动通信技术、网络优化,区块链,物联网相关技术

    李春磊:男,硕士生,研究方向为移动通信技术、分布式学习、区块链、智能驾驶相关技术

    黎文静:女,硕士生,研究方向为移动通信技术、分布式学习、区块链、车联网相关技术

    梁承超:男,博士,教授,研究方向无线通信、空天地一体化网 络、(卫星)互联网架构与协议

    陈前斌:男,博士,教授,研究方向为新一代移动通信网络、未来网络、LTE-Advanced异构小蜂窝网络

    通讯作者:

    黄晓舸 huangxg@cqupt.edu.cn

  • 中图分类号: TN92

An Intelligent Driving Strategy Optimization Algorithm Assisted by Direct Acyclic Graph Blockchain and Deep Reinforcement Learning

Funds: The National Natural Science Foundation of China (62371082, 62001076), Guangxi Science and Technology Project (AB24010317), The Natural Science Foundation of Chongqing (CSTB2023NSCQ-MSX0726, cstc2020jcyj-msxmX0878)
  • 摘要: 深度强化学习(DRL)在智能驾驶决策中的应用日益广泛,通过与环境的持续交互,能够有效提高智能驾驶系统的决策能力。然而,DRL在实际应用中面临学习效率低和数据共享安全性差的问题。为了解决这些问题,该文提出一种基于有向无环图(DAG)区块链辅助深度强化学习的智能驾驶策略优化(D-IDSO)算法。首先,构建了基于DAG区块链的双层安全数据共享架构,以确保模型数据共享的效率和安全性。其次,设计了一个基于DRL的智能驾驶决策模型,综合考虑安全性、舒适性和高效性设定多目标奖励函数,优化智能驾驶决策。此外,提出了一种改进型优先经验回放的双延时确定策略梯度(IPER-TD3)方法,以提升训练效率。最后,在CARLA仿真平台中选取制动和变道场景对智能网联汽车(CAV)进行训练。实验结果表明,所提算法显著提高了智能驾驶场景中模型训练效率,在确保模型数据安全共享的基础上,有效提升了智能驾驶的安全性、舒适性和高效性。
  • 图像常面临着严峻的噪声干扰,诸多内外因素都可使之在采样、记录、编码、传输、显示等过程中引入噪声,造成失真,严重时甚至丧失使用价值。如能有效衡量出图像中的噪声水平,及早筛选出污染严重的图像,对于提高工程时效意义重大。于是针对噪声图像的质量评价研究日益受到重视。

    图像质量评价分为主观质量评价和客观质量评价。主观质量评价主体是人,虽然最为可靠,却固有成本高昂、效率低下、受个体差异影响显著等诸多限制因素。所以目前研究大都集中于客观图像质量评价,即借助相关算法实现评价过程。其中根据参考图像的有无,又可细分为全参考(Full Reference, FR)质量评价[1]、弱参考(Reduced Reference, RR)质量评价[2]和无参考(No Reference, NR)质量评价[3]。由于参考图像大多不易得到或根本无从获取,无参考图像质量评价无疑具有更为广普的意义。

    早先噪声图像的质量评价手段主要围绕峰值信噪比(Peak Signal to Noise Ratio, PSNR)展开,但研究表明该指标所得评价结果与人眼主观感受间存在着不容忽视的偏差[4]。近年来以结构相似度[4](Structure SIMilarity, SSIM)的提出作为开端,相关研究逐渐地将人眼视觉系统(Human Visual System, HVS)特征作为构建算法的基石,灵活选择实现手段,如构造视觉码本[5]、离散余弦变换[69]、自然场景统计[1012]、小波变换[10,13,14]、机器学习[1518]等,涌现出了许多优秀的图像质量评价算法。但这些算法多需借助域变换或机器学习,其中域变换运算量巨大,中间数据沉滞晦涩;而机器学习对模型的建立、训练过程繁复,如BRISQUE算法[17]共需提取18种图像特征,DIIVINE算法[18]更是高达88种,运算耗时惊人。进而不少研究人员选择在空域直接对噪声图像展开质量评价,其中梯度可以有效反映图像纹理、边缘信息,尤其对于孤立噪声点具备相当良好的区分能力[19],因此受到了颇为广泛的关注。梯度检噪的关键点在于模板算子的设计与检噪阈值的选取。但在现有文献中不乏使用人为设定的常量,如GSM算法[19]需要手动设定梯度算子的尺寸;传统无参考峰值信噪比(No Reference Peak Signal to Noise Ratio, NRPSNR)[20]算法中直接使用固定的分块和检噪阈值,缺乏客观性与普适性。已有文献报道指出重要参数选取得当与否影响算法性能[21],并验证了不同的模板尺寸对应不同的评价性能[22]

    鉴于此,本文改进基于HVS特性中掩盖效应的传统NRPSNR噪声图像质量评价算法,旨在无需域变换与训练学习的同时,摒弃参数指标的人为设定,从图像自身特征提取分块阈值、检噪阈值等重要参数,以提高评价算法的鲁棒性与普适性,并在国际公认的LIVE和TID2008专业图像质量数据库对该改进算法的性能加以验证。

    视觉掩盖效应是人眼视觉系统的一个重要特性,就噪声图像而言人眼容易感知在图像平坦区域的噪声,而对纹理边缘中出现的噪声不敏感[6]。一方面,图像中的纹理边缘和噪声属于高频成分,灰度变化剧烈,相应的像素点灰度值均方差较大,而平坦区域属于低频成分,灰度变化缓慢,其均方差较小。进而结合分块阈值判断,可将图像逐级细分为随频率成分高低而尺寸不同的子块,体现掩盖效应。另一方面,虽然纹理边缘和噪声都属于高频成分,但前者具有明显的结构特征,其与邻域像素存在一定的灰度值约束条件[19,20]。据此结合检噪阈值判断,可将噪声与边缘纹理区分开来。对不同图像块内噪声程度采用不同视觉掩盖权值加权,即频率越高的图像块尺寸越小,对应赋予较小的掩盖权值以弱化噪声刺激;反之频率越低的图像块尺寸越大,赋予更大的掩盖权值突显噪声刺激。最后计算无参考峰值信噪比完成图像质量评价。

    图1所示为本文改进算法的主体框架,主要由图像分块与掩盖权值建立、局部噪声估计、整图噪声汇总以及评价值修正等部分构成。

    图 1  改进算法主体框架

    分块方法基于十字等分的Hosaka四叉树分块策略,相较传统NRPSNR算法中人为设置固定分块阈值并与图像块均方差对比进行逐级分块的方法,改进算法结合同级子块像素均方差(MSE)的均值与中值构建分块阈值,逐级自动计算,并将分块规则细化为3条递进判据,由大范围到小局部结合具体图像特征进行判断,多分辨地实现内容频率分布的分析。MSE计算见式(1),其中M, N分别为图像矩阵I的行、列像素数,ˉI为图像块平均灰度值。

    MSE=Mi=1Nj=1(Ii,jˉI)2M×N
    (1)

    当某一图像块满足下述分块规则时,认为该图像块中含有较高频率成分内容,有待进一步分块。

    对于由同一前级图像块划分而得的4个图像子块,计算其各自均方差并求取均值,记为¯MSE,其中均方差大于¯MSE者继续分块;

    对于不满足上一条件的图像子块,若其内部所含4个潜在子块中存在均方差大于¯MSE者继续分块;

    计算当前层级所有待分图像块潜在子块的均方差并构成子集,对于不满足上述两个条件的图像块,若其所含子块之均方差存在大于子集中值者继续分块。

    具体分块过程:对于读入的图像首先直接等分为4个子块作为第1层分块结果,按照上述规则对当前层级子块遍历判断、加以分块,累加层数并重复这一过程,直到所分子块边长低于8像素。设分块完成后共得到p个图像块,根据尺寸赋予各图像块相应掩盖权值λ,见式(2)。其中mk, nk为第k个子块的长和宽。

    λk=log2(min(mk,nk))
    (2)

    传统NRPSNR算法中将像素点梯度值与人为设置固定阈值对比以甄别噪声点,本文采用图像中所有像素点梯度的均值Nth作为检噪阈值,以避免人工尝试检噪阈值带来的繁复与主观性。对于任意像素点Ii,j,式(3)给出水平方向梯度hi,j的计算方法,类比计算可得竖直梯度vi,j,正、反对角线梯度di,j, adi,j

    hi,j=||Ii,j+1Ii,j|+|Ii,jIi,j1||Ii,j+1Ii,j1||
    (3)

    取4者中最小值为该像素点梯度值,即

    gi,j=min(hi,j,vi,j,di,j,adi,j)
    (4)

    由此可计算出检噪阈值:

    Nth=Mi=1Nj=1gi,jM×N
    (5)

    具体检噪过程分为两步:

    (1)对于任一图像子块,遍历其中像素并逐一计算各点方向梯度,若某一像素点存在两个及以上的非零方向梯度值,则将该像素点归为疑似噪声点;

    (2)对于初筛得到的疑似噪声点,若其非零方向梯度值的最小值大于Nth,则确定该点为噪声点。

    鉴于孤立性不同的噪点对人眼刺激程度各异,改进算法还使用各噪点非零方向梯度数对其梯度进行加权。设上述方法在一个图像子块中共检测出q个噪声点,梯度值分别为gt(t=1, 2, ···, q),且对应有Tt(t=1, 2, ···, q)个非零方向梯度值,由式(5)得该图像块噪声污染程度Gk

    Gk=qt=1(gtNth)Tt2, k=1,2,···,p
    (6)

    通过汇总各个子块的掩盖权值与噪声污染程度,可以得到整图噪声程度的初步估计结果G,其中M, N为整图行、列像素值:

    G=pk=1Gk×λkM×N, k=1,2,···,p
    (7)

    结合图像灰度级数l,可求出本文初步评价参数——无参考峰值信噪比(仍沿用NRPSNR名称):

    NRPSNR=10lg(l2/G)
    (8)

    改进算法中所有判据、阈值均从图像自身获取,而图像个体信息差异会造成判据、阈值的不同,进而导致初步评价值浮动,故需要对初步结果修正和归一化。检噪主要依据像素梯度信息,在此引入整图像素梯度值的变异系数(Coefficient of Variation, CV),即所有像素点梯度值的标准差(gsd)与均值(Nth)的比值,加以修正。变异系数以评价特征(梯度值)的数学期望为单位去度量,不仅取决于梯度值的离散程度,还取决于它的平均水平。本文修正在于将噪声强度相同而内容不同图像的评价值映射至统一范围。

    gsd=1M×NMi=1Nj=1(gi,jNth)2
    (9)

    由于Nth即为图像像素点梯度均值,则该图像的变异系数CV易由式(9)得到

    CV=gsdNth
    (10)

    结合式(8)—式(10),进一步利用反正切函数能够将无界数据限制为区间数据的特点实现评价结果归一化,得到最终评价结果——改进的无参考峰值信噪比(Modified No Reference Peak Signal to Noise Ratio, MNRPSNR)。可根据实际情况调整σ值以获取所需评价结果分布区间。

    MNRPSNR=arctan(NRPSNRσ×CV)2×100π
    (11)

    本文选用目前权威的公开图像质量评价数据库LIVE[23]和TID2008[24]进行算法测试,具体数据库信息及实验使用子集见表1。其中LIVE数据库侧重于无参考图像质量评价,主观评价结果采取平均评价值(Mean Opinion Score, MOS),即对图像质量的直接主观评分;TID2008数据库偏重有参考图像质量评价,主观评价结果使用平均评价差值(Difference Mean Opinion Score, DMOS),即无损图像MOS与待评价图像MOS的差值。较高的MOS值或较低的DMOS值预示着图像具有更佳的主观感受。

    表 1  数据库信息及实验使用子集
    数据库国家/机构参考图像数量主观评价指标所选失真类型损伤层级
    LIVE美国/德克萨斯州立大学29DMOS白噪声(WN)6
    TID2008乌克兰/国家航空航天大学
    意大利/罗马大学
    芬兰/坦佩雷理工大学
    25MOS加性高斯噪声(AGN)5
    颜色通道加性噪声(ANCC)
    空间相关噪声(SCN)
    掩蔽噪声(MN)
    高频噪声(HFN)
    脉冲噪声(IMN)
    下载: 导出CSV 
    | 显示表格

    以LIVE数据库WN子集中的monarch图像组为例,从分块与评价结果两方面对使用固定阈值(按文献[20]取分块阈值300,检噪阈值10, 50, 100)的传统NRPSNR与改进算法进行比对。

    图2给出了随噪声方差var渐增而质量下降的一组图像及两种算法的分块结果与数量统计num。对于无噪图像(a1)和噪声污染程度较轻的(a2)、(a3)图像,传统NRPSNR算法和改进算法均能够较好地将图像按照内容频率分布加以分块。但随噪声强度增加图像整体频率提高,NRPSNR算法中使用固定阈值的分块方法对图(a4)至(a6)失效,其将图像皆分为最小尺寸(共得46=4096个子块);而改进MNRPSNR算法的分块数量基本维持在1600块附近,且分块尺寸与图像频率成分吻合,即便是噪声污染极端严重的图像(a6)改进算法亦能够对其相对频率高低加以区分,较好地体现视觉掩盖效应。

    图 2  改进算法动态阈值与传统算法固定阈值分块结果

    表2,一方面传统NRPSNR算法对同一幅图像获得的评价参数值随着检噪阈值的增大而显著升高;另一方面对含噪图像的评价效果也因噪声阈值的不同而存在差异:当 Nth取10时评价结果与主观评价结果趋势一致,评价参数值与对应主观评价值变动幅度尚吻合;而Nth取50时对含微量噪声的(a2), (a3)图像相较于无噪图像(a1)的评价值衰减幅度微乎其微,表现为对微量噪声的弱敏感性;当Nth取100时,图2(a2), (a3)的评价值不降反增,与人主观感受完全不符。上述结果充分说明不当的固定阈值可能导致评价效果的下滑甚至失败。相较之下,改进算法在准确反映不同强度噪声对图像主观质量感受影响程度的前提下,对微弱噪声的响应更为敏锐;说明本文阈值设置方法具有更高的自适应性,避免了人为尝试设定阈值带来的盲目与不确定。

    表 2  改进算法与不同检噪阈值下传统NRPSNR算法对monarch图像组评价结果
    DMOSNRPSNRMNRPSNR
    Nth=10Nth=50Nth=100
    图2(a1)0.00000058.3513869.7431279.0868490.0779
    图2(a2)23.9427550.4551869.3139179.5171977.9929
    图2(a3)28.4490547.5042869.0137179.7020276.7756
    图2(a4)41.1695939.0309549.2887865.9513568.3129
    图2(a5)49.0867536.4791243.0307852.7284065.3847
    图2(a6)65.7302933.0634836.5205141.1789360.7793
    下载: 导出CSV 
    | 显示表格

    为全面验证改进算法的综合性能,本文在LIVE和TID2008数据库上,将多种代表性有参考和无参考图像质量评价算法,与传统NRPSNR算法(按文献[20]取分块阈值300、检噪阈值50)及改进算法分别应用于含有不同类型噪声的图像进行质量评价,并选取视频质量专家组(Video Quality Experts Group, VQEG)一份最终报告[25]中推荐的3种指标衡量算法性能:反映算法预测结果准确性的皮尔逊线性相关系数(Pearson Linear Correlation Coefficient, PLCC)、体现主客观评价结果一致性的斯皮尔曼秩相关系数(Spearman Rank Order Correlation Coefficient, SROCC)、度量算法结果无偏性的均方根误差(Root of Mean Squared Error, RMSE)[25]。其中PLCC与SROCC愈接近1、RMSE愈趋近0代表算法性能越佳。

    4.2.1   LIVE数据库实验结果

    LIVE是近年来图像质量评价领域使用最广的数据库。本文分别选取传统的PSNR算法,较早引入HVS的经典SSIM算法[4],近年来受到较多关注的VSNR[10], BIQI[26], LBIQ[27], NIQE[28], BRISQUE[17], DIIVINE[18], BLIINDS[8], BLIINDS-II[9]等无参考质量评价算法进行性能指标比对,结果见表3

    表 3  MNRPSNR与相关算法特征及在LIVE数据库测试性能指标
    算法名称是否有参考图像是否需要训练是否需要域变换性能指标
    PLCCSROCCRMSE
    PSNR0.90500.90108.4500
    SSIM0.97000.96903.9540
    BIQI小波0.95380.95108.4094
    LBIQ小波0.97610.97007.9100
    DIIVINE小波0.98800.98404.3100
    BLIINDS离散余弦0.91400.890011.2700
    BLIINDS-II离散余弦0.97990.9691N/A
    NIQE0.97730.9662N/A
    BRISQUE0.98510.9786N/A
    NRPSNR0.86810.890010.9133
    MNRPSNR0.97450.98134.9369
    下载: 导出CSV 
    | 显示表格

    对于PSNR和SSIM两种经典有参考质量评价算法,本文改进算法的表现更为优秀;而对于无参考图像质量评价算法,除却DIIVINE在综合了多达88个图像特征,并经过域变换和训练学习后其3项指标均高于本文算法外,鲜有算法绝对占优,而改进算法的SROCC优于DIIVINE以外的所有算法;PLCC略微逊色于LBIQ, BLIINDS-II, NIQE; RMSE亦控制在相当低的水平。且3项指标均明显优于使用固定阈值的传统NRPSNR算法,说明改进算法在分块与检噪过程中的改进的确更好地起到了拟合人眼视觉特性的作用。由此可见,整体性能相较目前主流无参考图像质量评价算法具备相当的竞争力。

    4.2.2   TID2008数据库实验结果

    TID2008是目前规模最大、失真类型最丰富的图像质量评价数据库之一,除给出各图像主观评价值外,还提供了诸多全参考图像质量评价算法对应评价结果。本文从中选取VSNR[10], IFC[29], NQM[30], UQI[31]等全参考评价方法,对AWN, ANMC, SCN, MN, HFN以及IMN等类型噪声失真同NRPSNR及改进算法加以性能对比,各指标分别见表4表5表6

    表 4  TID2008数据库测试PLCC指标比对
    VSNRIFCNQMUQINRPSNRMNRPSNR
    AGN0.75130.61470.73970.54070.64670.7922
    ANCC0.74890.56280.69350.49300.04020.7291
    SCN0.77000.65670.77570.55890.16240.5808
    MN0.77990.73090.75750.75150.79030.5164
    HFN0.88610.71990.91340.70590.92830.9005
    IMN0.62440.49500.74920.48290.64030.8214
    下载: 导出CSV 
    | 显示表格
    表 5  TID2008数据库测试SROCC指标比对
    VSNRIFCNQMUQINRPSNRMNRPSNR
    AGN0.77450.62040.75920.53350.62760.7900
    ANCC0.77250.59210.72000.47980.08690.7115
    SCN0.78600.64030.79100.54720.04910.5786
    MN0.75550.73740.76240.72920.80180.5214
    HFN0.88700.74880.89520.68630.90390.8852
    IMN0.64600.53780.76660.49510.64950.8300
    下载: 导出CSV 
    | 显示表格
    表 6  TID2008数据库测试RMSE指标比对
    VSNRIFCNQMUQINRPSNRMNRPSNR
    AGN0.40050.47830.41310.51120.46820.3746
    ANCC0.36460.44480.39420.48440.55940.3832
    SCN0.38780.46550.39240.50550.61340.5060
    MN0.37450.38440.38900.39550.36730.5133
    HFN0.42590.60690.36910.66710.35630.4161
    IMN0.40220.43660.34020.44830.39330.2948
    下载: 导出CSV 
    | 显示表格

    全参考评价方法已知原始图像,其评价性能往往优于无参考评价算法。但改进算法在TID2088数据库中性能与VSNR, NQM基本持平,明显好于IFC和UQI,尤其对含有AGN, ANCC, IMN的图像评价效果几乎全面优于其他对比算法。在某些失真类型和指标项上改进算法也仅是略逊于占优指标。同时注意到虽然传统NRPSNR算法对于HFN和MN的评价效果绝对占优,但是对于ANMC与SCN则不具有评价功能,普适程度具有较大局限。但也注意到本文算法对SCN和MN评价效果不够理想,原因在于:

    SCN表现形式不是孤立的噪点,因此本文基于梯度的检噪方法有效性受到一定限制。

    MN多分布在图像高频区域,对应人眼掩盖效应,图像退化程度较低,算法评价结果普遍较高符合主观感受。但同组各级损伤图像评价值差距缩小,组间差异相对明显。

    选取在LIVE数据库上某些指标项略优于本文算法的DIIVINE[18]与BLIINDS-II[9]算法以及原始NRPSNR算法进行单张图像平均处理时长的比较,如表7所示。

    表 7  MNRPSNR与相关算法在LIVE数据库上运行时间(s)
    算法名称DIIVINEBLIINDS-IINRPSNRMNRPSNR
    平均单幅耗时149703.4510.10
    下载: 导出CSV 
    | 显示表格

    DIIVINE与BLIINDS-II两种机器算法虽然在PLCC或SROCC指标项上略优,但由于涉及域变换和大量特征项的提取,耗时过长;改进算法相较NRPSNR在分块与检噪等方面做出诸多改进,尤其对分块计算过程,使用了递进的双重判据,耗时有所增加,但换取了评价性能的大幅提高。

    本文针对传统NRPSNR算法存在的不足,提出了一种噪声图像质量评价改进算法。该算法结合视觉掩盖效应和Hosaka方法,通过挖掘图像自身特征,逐级自动调整分块与检噪阈值,并进一步完善相关判据策略,加入对评价参数的修正与归一化处理,获得了改进的评价参数值。相较传统NRPSNR算法,改进算法在分块合理性与检噪准确性方面明显提高,整体评价性能更优,与人眼主观感受间保持了高度一致性。通过在LIVE和TID2008数据库上进行测试,结果表明本文算法能够有效评价多种类型噪声失真,综合性能与主流评价算法相当甚至占优,且在算法实现上更为简单便捷。课题后续研究将着力对性能指标有待提高的噪声类型补足完善,并对噪声外其他类型失真评价加以探索。

  • 图  1  基于DAG区块链的双层安全数据共享车联网架构

    图  2  两种典型驾驶场景

    图  3  不同智能驾驶策略下模型训练平均奖励变化

    图  4  不同智能驾驶策略下制动模型测试

    图  5  不同智能驾驶策略下变道模型测试

    图  6  不同智能驾驶策略下变道轨迹

    图  7  CARLA仿真平台中协同变道示意图

    图  8  不同经验回放算法的平均奖励及其标准差变化

    1  基于DAG区块链辅助DRL的智能驾驶策略优化算法

     输入:Critic网络初始参数,Actor网络初始参数,本地迭代轮次
     E,学习率η,折现因子γ和更新率τ
     输出:最优CAV智能驾驶决策;
     (1) 车辆服务提供商发布任务
     (2) RSU m初始化网络参数,并上传至DAG区块链
     (3) for CAV v=1 to V do
     (4)  CAV v发送请求向量σdwv,m
     (5)  RSU m发送响应向量σdwm,v和初始模型
     (6)  //本地DRL训练
     (7)  for episode e= 1 to E do
     (8)  for step j = 1 to J do
     (9)   CAV v与环境不断交互
     (10) 存储4元组训练样本{st,at,rt,st + 1}B1
     (11) if step done then
     (12) 根据式(20)计算ˉr
     (13) 存储5元组训练样本{st,at,rt,st + 1,ˉr}B2
     (14) end if
     (15) 根据式(21)更新经验回放池B1中样本优先级
     (16) 根据式(22)更新经验回放池B2中样本优先级
     (17) 从B1,B2中抽样N1,N2数量的训练样本
     (18) 采用梯度下降方法更新Critic网络
     (19) if Critic网络更新2次 then
     (20) 采用梯度下降方法更新Actor网络
     (21) 采用软更新方法更新目标网络
     (22) end if
     (23) end for
     (24) //上传模型
     (25) if 模型质量UtUthreshold then
     (26) CAV v发送新site, TXdwv,m和请求向量σupv,m
     (27) RSU m打包交易向量,将新site添加至DAG
     (28) end if
     (29) end for
     (30) end for
    下载: 导出CSV
  • [1] XU Wenchao, ZHOU Haibo, CHENG Nan, et al. Internet of vehicles in big data era[J]. IEEE/CAA Journal of Automatica Sinica, 2018, 5(1): 19–35. doi: 10.1109/JAS.2017.7510736.
    [2] TENG Siyu, HU Xuemin, DENG Peng, et al. Motion planning for autonomous driving: The state of the art and future perspectives[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8(6): 3692–3711. doi: 10.1109/TIV.2023.3274536.
    [3] LI Guofa, QIU Yifan, YANG Yifan, et al. Lane change strategies for autonomous vehicles: A deep reinforcement learning approach based on transformer[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8(3): 2197–2211. doi: 10.1109/TIV.2022.3227921.
    [4] ZHU Zhuangdi, LIN Kaixiang, JAIN A K, et al. Transfer learning in deep reinforcement learning: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(11): 13344–13362. doi: 10.1109/TPAMI.2023.3292075.
    [5] WU Jingda, HUANG Zhiyu, HUANG Wenhui, et al. Prioritized experience-based reinforcement learning with human guidance for autonomous driving[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(1): 855–869. doi: 10.1109/TNNLS.2022.3177685.
    [6] CHEN Junlong, KANG Jiawen, XU Minrui, et al. Multiagent deep reinforcement learning for dynamic avatar migration in AIoT-Enabled vehicular metaverses with trajectory prediction[J]. IEEE Internet of Things Journal, 2024, 11(1): 70–83. doi: 10.1109/JIOT.2023.3296075.
    [7] ZOU Guangyuan, HE Ying, YU F R, et al. Multi-constraint deep reinforcement learning for smooth action control[C]. The 31st International Joint Conference on Artificial Intelligence, Vienna, Austria, 2022: 3802–3808. doi: 10.24963/ijcai.2022/528.
    [8] HUANG Xiaoge, WU Yuhang, LIANG Chengchao, et al. Distance-aware hierarchical federated learning in blockchain-enabled edge computing network[J]. IEEE Internet of Things Journal, 2023, 10(21): 19163–19176. doi: 10.1109/JIOT.2023.3279983.
    [9] CAO Bin, WANG Zixin, ZHANG Long, et al. Blockchain systems, technologies, and applications: A methodology perspective[J]. IEEE Communications Surveys & Tutorials, 2023, 25(1): 353–385. doi: 10.1109/COMST.2022.3204702.
    [10] HUANG Xiaoge, YIN Hongbo, CHEN Qianbin, et al. DAG-based swarm learning: A secure asynchronous learning framework for internet of vehicles[J]. Digital Communications and Networks, 2023. doi: 10.1016/j.dcan.2023.10.004.
    [11] XIA Le, SUN Yao, SWASH R, et al. Smart and secure CAV networks empowered by AI-enabled blockchain: The next frontier for intelligent safe driving assessment[J]. IEEE Network, 2022, 36(1): 197–204. doi: 10.1109/MNET.101.2100387.
    [12] FU Yuchuan, LI Changle, YU F R, et al. An autonomous lane-changing system with knowledge accumulation and transfer assisted by vehicular blockchain[J]. IEEE Internet of Things Journal, 2020, 7(11): 11123–11136. doi: 10.1109/JIOT.2020.2994975.
    [13] FAN Bo, DONG Yiwei, LI Tongfei, et al. Blockchain-FRL for vehicular lane changing: Toward traffic, data, and training safety[J]. IEEE Internet of Things Journal, 2023, 10(24): 22153–22164. doi: 10.1109/JIOT.2023.3303918.
    [14] YIN Hongbo, HUANG Xiaoge, WU Yuhang, et al. Multi-region asynchronous swarm learning for data sharing in large-scale internet of vehicles[J]. IEEE Communications Letters, 2023, 27(11): 2978–2982. doi: 10.1109/LCOMM.2023.3314662.
    [15] CAO Mingrui, ZHANG Long, and CAO Bin. Toward on-device federated learning: A direct acyclic graph-based blockchain approach[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(4): 2028–2042. doi: 10.1109/TNNLS.2021.3105810.
  • 期刊类型引用(4)

    1. 彭晏飞,王静,刘晓轩,巩胜杰. 结合主成分分析和图像分块的重定向研究. 液晶与显示. 2024(02): 157-167 . 百度学术
    2. 崔嘉,宋磊,陆宏菊,唐明晰,戚萌. 基于最小位移可视差的连续Seam Carving算法在图像缩放中的研究. 电子与信息学报. 2021(04): 1014-1021 . 本站查看
    3. 张雅茹. 基于DCT的无参考JPEG压缩图像质量评价研究. 太原学院学报(自然科学版). 2021(03): 66-70 . 百度学术
    4. 王怡影,章承诺,徐静静,范程华,柴豆豆. 基于掩盖模型非线性变换的相关性分析. 蚌埠学院学报. 2020(05): 53-56 . 百度学术

    其他类型引用(7)

  • 加载中
图(8) / 表(1)
计量
  • 文章访问数:  232
  • HTML全文浏览量:  87
  • PDF下载量:  45
  • 被引次数: 11
出版历程
  • 收稿日期:  2024-05-25
  • 修回日期:  2024-11-13
  • 网络出版日期:  2024-11-19
  • 刊出日期:  2025-12-01

目录

/

返回文章
返回