DRL-based RIS-assisted ISAC Network: Challenges and Opportunities
-
摘要: 随着深度强化学习(DRL)技术的广泛应用,基于DRL的可重构智能表面(RIS)辅助的通信感知一体化(ISAC)展现出巨大的潜力。然而,由于数据卸载和模型训练的高成本,基于现有ISAC框架实现网络智能仍面临着巨大的挑战。为了克服该问题,该文深入分析了DRL技术在ISAC领域的应用,探讨了RIS辅助的ISAC建模及其解决方案,该技术能够解决覆盖区域受限、算法复杂度高以及高频传输等问题。为了推动这些技术的实施,该文进一步讨论了RIS辅助ISAC网络中DRL技术的未来发展趋势,包括潜在的应用和需要解决的问题。Abstract: The Deep Reinforcement Learning (DRL) has received widespread attention, which has potential in Reconfigurable Intelligent Surface (RIS) assisted Integrated Sensing And Communication (ISAC) network. However, due to the high cost of data offloading and model training, the existing RIS-assisted ISAC frameworks still face great challenges. To overcome this problem, the paper analyzes the main technology of DRL in the field of ISAC networks and its solution, which can solve the of high complexity, high-frequency transmission and limited coverage problems. To promote the implementation of these technologies, this paper further discusses the future development trends of DRL technologies in RIS-assisted ISAC networks, including potential applications and problems to be solved.
-
1. 引言
随着雷达信号带宽的增大和分辨率的提升,目标回波模型变成多散射中心模型,当距离像中相邻位置上存在目标时,匹配滤波器输出可能会出现:(1)强目标旁瓣掩盖弱目标,(2)大量虚假目标。如何实现距离旁瓣的有效抑制,是改善雷达探测性能,尤其是微弱目标的探测性能的关键[1]。
为解决该问题,常采用失配滤波器进行旁瓣抑制,该方法以一定的信噪比损失为代价,且抑制效果有限。CLEAN算法[1]估计大目标所在位置并清除大目标距离旁瓣的影响,该算法对弱小目标的提取效果并不理想[2]。Shannon提出基于迭代最小均方误差(Reiterative Minimum Mean Square Error, RMMSE)的自适应脉冲压缩(Adaptive Pulse Compression, APC)方法,该方法利用先验距离像信息进行迭代,实现距离旁瓣自适应抑制[3]。文献[4]进一步提出基于迭代线性约束最小方差(Reiterative Linearly Constrained Minimum Variance, RLCMV)的自适应脉冲压缩方法,引入波束形成器算法对目标及干扰单元进行线性约束,解决了目标散射点与采样中心失配时旁瓣抑制性能下降的问题。以上研究主要着力于接收端滤波器的优化,未对发射波形进行调整,旁瓣抑制性能存在一定局限性。文献[5]以随机噪声发射信号自相关函数的峰值旁瓣电平和综合积分旁瓣比作为评价指标,提出发射波形的优化方法,降低自相关函数旁瓣的影响,实现超宽带噪声雷达的距离旁瓣抑制。文献[6]和文献[7]提出了一系列循环迭代算法,如CA, CAP, CAN, WeCAN等,用于优化发射信号序列自相关函数整体或特定区间旁瓣,以抑制不同信号回波之间的相互干扰。但这些方法均沿用匹配滤波技术,故无法摆脱距离旁瓣(或自相关旁瓣)的影响,导致距离旁瓣抑制性能瓶颈[1]。
认知雷达是一种新型雷达体制,具有智能化的实时环境感知和自我调整能力,可根据周围环境变化自适应调节工作模式、发射波形和接收机信号处理方法,是一种动态闭环反馈系统[8]。利用发射波形和接收滤波器的联合优化,可显著提升雷达在目标检测、跟踪、估计、识别及成像等方面的性能[9–15],因此是现代雷达发展的重要研究方向,受到国内外雷达工作者广泛关注。文献[16]基于先验目标冲激响应(Target Impulse Response, TIR),依据最大化输出信噪比(Signal-to-Noise Ratio, SNR)准则,联合优化发射波形和接收滤波器,提高对距离旁瓣的抑制性能。然而,目标雷达截面积(Radar Cross Section, RCS)通常是时变的,且对照射角度敏感,所用TIR与其真实值的误差导致旁瓣抑制性能下降。文献[17]提出了先估计后检测(Estimation Before Detection, EBD)方法,首先采用最大似然估计器估计目标TIR,接着基于最大SNR准则设计发射波形,二者交替进行,实现对不同距离单元干扰信号的抑制,进而提高检测性能。然而该文献是对TIR进行整体估计,对旁瓣的抑制缺乏针对性,且不利于信息的充分利用和误差的及时校正。
本文借鉴上述文献,针对认知雷达提出了基于序列优化(Sequential Optimization, SO)的稳健旁瓣抑制方法,依据MMSE准则,针对某一距离单元设计最优发射波形与接收滤波器以抑制其他距离单元信号的干扰和噪声,并用于该距离单元散射点RCS估计,所获估计值用于后续距离单元的波形优化和滤波器设计,上述过程在雷达作用区域各距离单元序贯进行,即可不断利用反馈信息更新认知雷达环境信息库和收发系统,以更优地获取和利用雷达外部工作环境信息,从而依次抑制不同距离单元、不同大小目标的旁瓣,并具有一定的稳健性。
2. 问题描述
假设雷达工作场景共包含
L 个距离分辨单元,αl (l=1,2,···,L )表示第l 个距离分辨单元内散射点RCS。用长度为N 的向量表示脉冲发射波形的离散形式,sl=[sl1sl2···slN]T∈CN×1 (l=1,2,···,L )为用于第l 个距离分辨单元检测的波形,记˜sl=[sl0T(L−1)]T∈C(N+L−1)×1 。定义时延矩阵J=[0T(N+L−2)0I(N+L−2)0(N+L−2)]∈C(N+L−1)×(N+L−1) (1) 式中,
0(N+L−2)∈C(N+L−2)×1 为全0列向量,I(N+L−2) ∈C(N+L−2)×(N+L−2) 为单位矩阵。J 表示相邻距离分辨单元回波信号到达接收机的时延差,则第k 个距离分辨单元相较于第l 个距离分辨单元回波到达接收机的时延差可表示为Jk−l={Jk−l, k≥l(Jl−k)T,k<l (2) 式中,当
k≥l 时,Jk−l 为Jk−l=[0T(N+L−k+l−1)×(k−l)0(k−l)×(k−l)I(N+L−k+l−1)0(N+L−k+l−1)×(k−l)] (3) 式中,
0(N+L−k+l−1)×(k−l)∈C(N+L−k+l−1)×(k−l) 为全0矩阵。故对应第l 个距离分辨单元的回波yl∈C(N+L−1)×1 可表示为yl=αl˜sl+L∑k=1,k≠lαkJk−l˜sl+nl (4) 式中,
nl∈C(N+L−1)×1 为对应第l 个距离分辨单元的加性高斯白噪声,均值为0,协方差矩阵为E[|nl|2]=RN∈C(N+L−1)×(N+L−1) 。式(4)中第1项为当前距离单元
αl 的信号分量,第2项为其他距离单元的信号分量,可视为干扰信号,第3项为噪声分量。假设用于处理对应第l 个距离分辨单元回波的滤波器为hl∈C(N+L−1)×1 ,则滤波结果为hHlyl=αlhHl˜sl+L∑k=1,k≠lαkhHlJk−l˜sl+hHlnl (5) 式中,
(⋅)H 为共轭转置算子。故第l 个距离分辨单元RCS的估计值为ˆαl=hHlylhHl˜sl=αl+L∑k=1,k≠lαkhHlJk−l˜slhHl˜sl+hHlnlhHl˜sl (6) 式中,后两项误差项由其他距离单元信号和噪声造成的,为其他距离单元信号和噪声在第
l 个距离单元旁瓣的叠加,抑制旁瓣可降低估计误差。假设不同距离单元的回波信号是无关的,则估计值ˆαl 的MSE为σl=E[L∑k=1,k≠l|αkhHlJk−l˜slhHl˜sl|2]+E[|hHlnlhHl˜sl|2]=L∑k=1,k≠l|αkhHlJk−l˜slhHl˜sl|2+E[|hHlnlhHl˜sl|2]=L∑k=1,k≠l|αk|2|hHlJk−l˜sl|2+E[|hHlnl|2]|hHl˜sl|2 (7) 不难发现,
σl 与发射波形和接收滤波器均有关系,故本文针对每一距离分辨单元,基于MMSE准则采用联合优化发射波形及接收滤波器的方法来降低估计误差,改善旁瓣抑制性能,由此建立目标函数min˜sl,hlσl,l=1,2,···,Ls.t.‖˜sl‖2=CE,l=1,2,···,L} (8) 式中,
CE 为发射波形能量,即要求发射波形能量恒定。3. 问题求解
式(8)所示目标函数为非凸函数,本节提出SO算法用于目标函数的求解,其基本流程如图1所示。针对第
l 个距离分辨单元,在第n 次迭代中基于当前发射波形s(n−1)l 寻找使σl 最小化的最优接收滤波器h(n)l ,接着再基于h(n)l 搜索满足约束条件的能够最小化σl 的最优发射波形s(n)l ,以此类推,当σl 变化趋于平稳时即可获得针对第l 个距离分辨单元的最优发射波形sO,l 和接收滤波器hO,l ,将其用于αl 的估计。之后将所获取的最新的RCS估计值用于后续距离分辨单元的发射波形和接收滤波器的优化以及RCS估计,当遍历所有距离分辨单元后再继续以上述方式进行下一轮更新,直至旁瓣抑制性能满足系统要求。下文将给出SO算法的具体实现方法。针对第
l 个距离分辨单元,利用循环优化思想[18],求解发射波形与接收滤波器的联合优化问题,即在每一次迭代中,将其分解为以下两个独立的优化问题:(1)固定波形˜s(n−1)l 优化接收滤波器h(n)l ; (2)在已知滤波器h(n)l 的基础上优化波形˜s(n)l 。下文将分别讨论具体求解方法。当已知发射波形
sl 时,˜sl 即可确定,σl 可表示为σl=L∑k=1,k≠l|αk|2|hHlJk−l˜sl|2+E[|hHlnl|2]|hHl˜sl|2=hHlRS,lhlhHl˜sl˜sHlhl (9) 式中,
RS,l=∑Lk=1,k≠l|αk|2Jk−l˜sl˜sHlJHk−l+RN ,式(9)是典型的最小方差无畸变响应问题[19],其最优解为hO,l=R−1S,l˜sl 。接下来求解已知接收滤波器
hl 时,发射波形sl 的设计问题。类似地可将式(8)中待求解优化问题等价为min˜sl˜sHlRH,l˜sl˜sHlhlhHl˜sls.t.‖˜sl‖2=CE} (10) 式中,
RH,l=L∑k=1,k≠l|αk|2JHk−lhlhHlJk−l+hHlRNhlI(N+L−1)/CE (11) 由于
˜sl=[sl0T(L−1)]T ,故式(10)中待求解问题等价于minslsHlRN,lslsHlhN,lhHN,lsls.t.‖sl‖2=CE} (12) 式中,
RN,l∈CN×N 为RH,l 的左上角N×N 子阵,hN,l∈CN×1 为hl 前N 个元素组成的子向量。容易求得,使σl 最小化的最优发射波形应为sO,l=√CE ⋅R−1N,lhN,l‖R−1N,lhN,l‖ 。计算复杂度分析:本文方法需针对每一距离分辨单元以迭代的方式进行收发联合优化以抑制旁瓣,每次迭代过程中,需完成对矩阵
RS,l ∈C(N+L−1)×(N+L−1) 和RN,l ∈CN×N 的求逆运算,计算量为O((N+L −1)3+N3) [3],假设针对每一距离分辨单元需进行M 次迭代,则遍历L 个距离单元所需计算量为O(M((N+L−1)3+N3)L) 。若为获得较好的旁瓣抑制性能需进行M1 次遍历,则所提方法的计算复杂度为O(MM1((N+L−1)3+N3)L) 。式(13)给出了本文算法收敛性的简要说明
σl(s(n−1)l,h(n−1)l)≥σl(s(n−1)l,h(n)l)≥σl(s(n)l,h(n)l) (13) 式中,第1个不等号是由于接收机
h(n)l 对于s(n−1)l 的最优性所致,第2个不等号是由于s(n)l 对于h(n)l 的最优性所致,故而随着优化和估计在雷达工作场景中逐个距离分辨单元的进行,TIR整体估计误差将逐步减小,从而确保了算法的收敛性。4. 仿真结果及性能分析
为验证本文所提基于SO算法的认知雷达旁瓣抑制方法的有效性和优越性,本节设计了2组仿真实验,从成像精度、算法收敛性以及抗噪声稳健性等方面,分别将文献[3]所提APC法和文献[17]所提EBD法与本文所提方法进行对比和分析。实验中APC法所用发射波形为
N=40 的M序列,EBD法和本文方法均以其作为初始发射波形。以SR-71侦察机为待估计目标,共包含L=20 个距离单元,其1维高分辨距离像如图2所示。噪声协方差矩阵RN=σ2NIN ,其中σ2N 表示噪声功率。实验1 (高信噪比条件下的旁瓣抑制) 假设
σ2N=1 。定义目标TIR估计的整体MSE为˜σ=‖α−ˆα‖2 (14) 式中,
α 和ˆα 分别表示目标真实TIR向量和估计TIR向量,‖⋅‖ 为向量Euclid范数。APC法、EBD法和本文方法所获得的估计结果分别如图3(a),图3(b)和图3(c)所示,相应的整体MSE分别为–13.9 dB, –13.2 dB和–15.4 dB,能够发现本文方法相比于其他2种方法,可使估计误差降低2 dB左右,所获得的成像精度最高,旁瓣抑制性能最好。本文方法不仅引入了发射波形优化,且逐个针对每个距离单元进行发射波形优化和散射点RCS估计,丰富了信息库,增加了CR对周围环境信息的感知和利用能力,故所获得估计误差最低,旁瓣影响最小。
由于APC法、EBD法以及本文算法均使用了迭代算法,图4给出了这3种算法所获得整体MSE随迭代次数变化的曲线。APC法的迭代次数需预先设定,之后依据迭代次数确定各次迭代中距离单元个数,每次迭代均对距离窗内各距离单元散射点RCS进行估计,并将其用于下次迭代中脉冲压缩滤波器系数的计算,故每次迭代将带来各距离单元散射点RCS估计误差的降低,随着迭代的进行算法逐步收敛。由于APC法和本文方法均是以匹配滤波器输出为初始估计值,故初始误差较大,但经过一轮迭代之后估计误差大大降低。由于引入发射波形优化,故当算法收敛时,本文方法所获得的MSE低于APC法近2 dB。EBD法通过收-发联合优化与目标TIR整体估计交替迭代进行,利用环境信息不断调整发射波形和接收端滤波器,可有效提高对目标TIR的估计精度,随着算法的迭代,目标TIR的整体估计误差将逐步降低,当TIR估计值趋于平稳时算法收敛。相比于EBD法,由于本文方法是逐个针对每个距离单元进行估计和波形优化,针对性更强,故本文方法可获得更高估计精度。总之,相较于APC法和EBD法,本文方法可更好地抑制不同距离单元间的旁瓣串扰。
实验2 (抗噪声稳健性性能测试) 如图5(a), 图5(b)和图5(c)给出了当
σ2N=10 时APC法、EBD法和本文方法所获得的估计结果,相应的成像误差分别为–3.9 dB, –4.5 dB和–14.8 dB。显然,APC法和EBD法已无法正常工作,所获估计结果误差较大,而本文方法依然可以对旁瓣进行有效抑制,获得对目标1维距离像较高精度的估计。为进一步说明本文方法的旁瓣抑制稳健性,图6给出了在不同噪声功率下,APC法、EBD法和本文方法可获得的MSE。由图可知,本文方法的抗噪声稳健性最强,对于不同噪声水平,所获得估计误差几乎无变化,而APC法和EBD法在低信噪比条件下估计误差较大,无法进行有效的旁瓣抑制。
5. 结束语
为降低认知雷达扩展目标RCS估计不同距离单元信号间的串扰,本文提出了基于序列优化的稳健旁瓣抑制方法,逐个针对每个距离单元优化发射波形和接收滤波器,以此估计当前距离单元散射点RCS,并将其用于后续距离单元的优化和估计,增强了认知雷达对工作环境的感知能力,丰富了信息库,提高了所使用先验知识的准确率,故而可改善旁瓣抑制性能,提高对目标的1维距离像成像精度,并具有较好的抗噪声稳健性,有利于提高雷达对复杂战场的适应能力。目前,本文方法是考虑白噪声中静止扩展目标,下一步工作将考虑杂波和目标多普勒对旁瓣抑制性能的影响,展开杂波环境中运动扩展目标旁瓣抑制方法的研究,此外,针对每个距离单元进行发射-接收联合优化使得运算量较大,在之后的工作中考虑对距离单元进行分组划分以降低运算量。
-
表 1 基于深度学习的RIS辅助通信的最新进展
表 2 参数设置
参数名称 参数值 RIS个数 10 训练大小 1000 训练学习率 0.001 迭代次数 20 测试集样本个数 500 -
[1] LIU An, HUANG Zhe, LI Min, et al. A survey on fundamental limits of integrated sensing and communication[J]. IEEE Communications Surveys & Tutorials, 2022, 24(2): 994–1034. doi: 10.1109/COMST.2022.3149272. [2] CHEN Zhen, TANG Jie, HUANG Lei, et al. Robust target positioning for reconfigurable intelligent surface assisted MIMO radar systems[J]. IEEE Transactions on Vehicular Technology, 2023, 72(11): 15098–15102. doi: 10.1109/TVT.2023.3284454. [3] MEALEY R M. A method for calculating error probabilities in a radar communication system[J]. IEEE Transactions on Space Electronics and Telemetry, 1963, 9(2): 37–42. doi: 10.1109/TSET.1963.4337601. [4] ZHANG J A, RAHMAN M L, WU Kai, et al. Enabling joint communication and radar sensing in mobile networks—a survey[J]. IEEE Communications Surveys & Tutorials, 2022, 24(1): 306–345. doi: 10.1109/COMST.2021.3122519. [5] TONEX. Introduction to 6G | IMT-2030[EB/OL]. https://www.tonex.com/training-courses/introduction-to-6g-imt-2030/, 2020. [6] CHEN Zhen, HUANG Lei, XIA Shuqiang, et al. Parallel channel estimation for RIS-assisted internet of things[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25(8): 9762–9773. doi: 10.1109/TITS.2024.3364248. [7] Communication Network., ZTE and China Unicom Achieve World's First 5G Mid-Band Network Verification of Reconfigurable Intelligent Surface in External Networks[EB/OL] https://www.c114.com.cn/news/127/a1167167.html, 2021.Communication Network.,ZTE and China Unicom Achieve World's First 5G Mid-Band Network Verification of Reconfigurable Intelligent Surface in External Networks[EB/OL] https://www.c114.com.cn/news/127/a1167167.html, 2021. [8] CHEN Zhen, TANG Jie, ZHANG Xiuyin, et al. Hybrid evolutionary-based sparse channel estimation for IRS-assisted mmWave MIMO systems[J]. IEEE Transactions on Wireless Communications, 2022, 21(3): 1586–1601. doi: 10.1109/TWC.2021.3105405. [9] HUANG Chongwen, MO Ronghong, and YUEN C. Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(8): 1839–1850. doi: 10.1109/JSAC.2020.3000835. [10] XU Wangyang, AN Jiancheng, XU Yongjun, et al. Time-varying channel prediction for RIS-assisted MU-MISO networks via deep learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2022, 8(4): 1802–1815. doi: 10.1109/TCCN.2022.3188153. [11] YANG Helin, XIONG Zehui, ZHAO Jun, et al. Deep reinforcement learning-based intelligent reflecting surface for secure wireless communications[J]. IEEE Transactions on Wireless Communications, 2021, 20(1): 375–388. doi: 10.1109/TWC.2020.3024860. [12] XU Wangyang, GAN Lu, and HUANG Chongwen. A robust deep learning-based beamforming design for RIS-assisted multiuser MISO communications with practical constraints[J]. IEEE transactions on Cognitive Communications and Networking, 2022, 8(2): 694–706. doi: 10.1109/TCCN.2021.3128605. [13] DEMIR Ö T and BJÖRNSON E. Is channel estimation necessary to select phase-shifts for RIS-assisted massive MIMO?[J]. IEEE Transactions on Wireless Communications, 2022, 21(11): 9537–9552. doi: 10.1109/TWC.2022.3177700. [14] SAIKIA P, SINGH K, TAGHIZADEH O, et al. DRL algorithms for efficient spectrum sharing in RIS-aided MIMO radar and cellular systems[C]. MILCOM 2022 - 2022 IEEE Military Communications Conference (MILCOM), Rockville, USA, 2022: 55–60. doi: 10.1109/MILCOM55135.2022.10017985. [15] ZHAO Jingjing, YU Lanchenhui, CAI Kaiquan, et al. RIS-aided ground-aerial NOMA communications: A distributionally robust DRL approach[J]. IEEE Journal on Selected Areas in Communications, 2022, 40(4): 1287–1301. doi: 10.1109/JSAC.2022.3143230. [16] PENG Zhangjie, ZHANG Zhibo, KONG Lei, et al. Deep reinforcement learning for RIS-aided multiuser full-duplex secure communications with hardware impairments[J]. IEEE Internet of Things Journal, 2022, 9(21): 21121–21135. doi: 10.1109/JIOT.2022.3177705. [17] 张在琛, 江浩. 智能超表面使能无人机高能效通信信道建模与传输机理分析[J]. 电子学报, 2023, 51(10): 2623–2634. doi: 10.12263/DZXB.20221352.ZHANG Zaichen and JIANG Hao. Channel modeling and characteristics analysis for high energy-efficient RIS-assisted UAV communications[J]. Acta Electronica Sinica, 2023, 51(10): 2623–2634. doi: 10.12263/DZXB.20221352. [18] ZHOU Hao, EROL-KANTARCI M, LIU Yuanwei, et al. Heuristic algorithms for RIS-assisted wireless networks: Exploring heuristic-aided machine learning[J]. IEEE Wireless Communications, 2024, 31(4): 106–114. doi: 10.1109/MWC.010.2300321. -