DRL-based RIS-assisted ISAC Network: Challenges and Opportunities
-
摘要: 随着深度强化学习(DRL)技术的广泛应用,基于DRL的可重构智能表面(RIS)辅助的通信感知一体化(ISAC)展现出巨大的潜力。然而,由于数据卸载和模型训练的高成本,基于现有ISAC框架实现网络智能仍面临着巨大的挑战。为了克服该问题,该文深入分析了DRL技术在ISAC领域的应用,探讨了RIS辅助的ISAC建模及其解决方案,该技术能够解决覆盖区域受限、算法复杂度高以及高频传输等问题。为了推动这些技术的实施,该文进一步讨论了RIS辅助ISAC网络中DRL技术的未来发展趋势,包括潜在的应用和需要解决的问题。Abstract: The Deep Reinforcement Learning (DRL) has received widespread attention, which has potential in Reconfigurable Intelligent Surface (RIS) assisted Integrated Sensing And Communication (ISAC) network. However, due to the high cost of data offloading and model training, the existing RIS-assisted ISAC frameworks still face great challenges. To overcome this problem, the paper analyzes the main technology of DRL in the field of ISAC networks and its solution, which can solve the of high complexity, high-frequency transmission and limited coverage problems. To promote the implementation of these technologies, this paper further discusses the future development trends of DRL technologies in RIS-assisted ISAC networks, including potential applications and problems to be solved.
-
1. 引言
20世纪90年代,混沌同步现象首次被发现存在于两个耦合的系统中,这一突破性的发现为混沌理论应用于通信领域奠定了基础。此后,国内外众多学者开始研究混沌理论在通信领域的应用,混沌通信技术成为非线性动力学系统中的一个重要应用分支。混沌信号产生方式简单,具有初始条件极度敏感性、优良的频谱特性、高度随机性、非周期性以及良好的自(互)相关性等特性[1,2],在保密通信中具有较大应用价值[3-6]。
Kolumban等人于1996年提出第1种非相干混沌数字解调技术—差分混沌移位键控(Differential Chaos Shift Keying, DCSK)技术;后又针对DCSK中发送信号比特能量不恒定的问题,提出调频DCSK(Frequency Modulated DCSK, FM-DCSK)技术。DCSK和FM-DCSK都采用传输参考(Transmitted-Reference, T-R)模式,分时隙发送参考信号和信息信号,因此具有较好的误码性能,但也造成了系统的传输速率极低[7,8]。针对传输速率低的缺点,文献[9-12]以DCSK和FM-DCSK为基础提出改进方案,虽提高了传输速率,但也增加了系统复杂度。文献[13]以高效差分混沌移位键控(High Efficiency Differential Chaos Shift Keying, HE-DCSK)系统为基础进行改进,提出VHE-DCSK(Very High Efficiency Differential Chaos Shift Keying)系统,将信息信号延迟不同时间从而实现多用户传输。文献[14]提出多载波差分混沌移位键控(MultiCarrier Differential Chaos Shift Keying, MC-DCSK)系统,通过使用多个不同中心频率的载波来实现信息比特的并行传输。文献[15]提出短参倍速差分混沌键控(Short Reference Multifold Rate Differential Chaos Shift Keying, SRMR-DCSK)系统,增加单个信息时隙内传输的比特数用于提升系统的传输速率。
Walsh码具有良好的正交特性和产生方式简单等优点,且Walsh码的引入不会过多地增加系统复杂度。为有效提升传输速率和能量效率,本文结合Walsh码的优良特性,提出一种OMU-SR-DCSK系统,将参考时隙缩短为信息时隙的
1/P ,并在参考时隙后增加两路连续的信息时隙,使得系统发送一帧共可传输2Nbit 用户信息,Walsh码保证用户间完全正交,完全消除了相关运算时产生的用户间干扰,改善了系统误码性能。2. OMU-SR-DCSK系统原理
Hadamard矩阵中只包含“+1”和“–1”两种元素,Walsh函数码是一组同步正交码,故可由
2n 阶Hadamard矩阵产生,码序列构造为[16]W2n=[W2(n−1)W2(n−1)W2(n−1)−W2(n−1)] (1) 式(1)中,
n=0,1,··· ,W20=[1] 。矩阵的每行代表一个长度P 的Walsh码序列,P=2n 。图1为DCSK和OMU-SR-DCSK系统第k帧结构对比图。相比于DCSK系统,OMU-SR-DCSK系统将参考信号长度缩短为
R(R=β/P) ,有效节省了时间和能量,其中,将扩频因子β 定义为比特周期Ts 和码片周期Tc 的比值,为便于后文理论公式的推导,取Tc=1 ;此外,还将信息时隙由1路扩展为2路,每个信息时隙内,用户之间乘以不同的Walsh码wi,j 加以区分,使得系统发送1帧共可传输2Nbit 用户信息,从而提高了传输速率和能量效率,Walsh码的引入消除了用户间干扰项,改善了系统误码性能。图2为OMU-SR-DCSK系统的发送机结构。首先由混沌信号发生器产生一段R长度的混沌序列
xi,k ,经重复P 次后,其长度变为β 。然后将这段长度为β 的混沌序列延迟R,用于传输前N个用户的信息比特,每个用户分别与wi,j(j=1,2,···,N) 相乘,后由加法器将前N个用户信息加和在第1个信息时隙内传输;同理,将这段长度为β 的混沌序列延迟(P+1)R ,用于传输后N个用户的信息比特,为每个用户分配一段Walsh码序列wi,j ,后将这N个用户信息加和在第2个信息时隙内传输。则第k帧的发送信号si,k 表达式为si,k={xi,k,0<i≤RN∑j=1wi,jbjxi−R,k,R<i≤(P+1)RN∑j=1wi,jbN+jxi−(P+1)R,k, (P+1)R<i≤(2P+1)Rxi−R,k≡x0,k,od(R) (2) 式(2)中,
wi,j 为第j和第N+j个用户所乘的Walsh码序列,bj 和bN+j 分别为第j和第N+j个用户的信息比特,由si,k 表达式计算平均比特能量Eb,OMU−SR−DCSK 为Eb,OMU−SR−DCSK=(1+2NP)RTcE(x2i,k)/(2N) (3) 图3为OMU-SR-DCSK的接收机结构。解调端将接收信号
ri,k 延迟R,用于分离出前N个用户信息的参考信号;同理,延迟(P+1)R 用于分离出后N个用户信息的参考信号;若要解调出信息比特bu (bN+u ),需将接收信号ri,k 与对应的Walsh码wi,u 相乘,再与参考信号进行P次相关运算,则第k帧第u(u=1,2,···,N) 个用户和第N+u个用户的相关器输出值Zu 和ZN+u 表示为Zu=P∑p=1R∑i=1ri,kri−R,kwi,u (4) ZN+u=P∑p=1R∑i=1ri,kri−(P+1)R,kwi,u (5) 相关运算值
Zu (ZN+u )经相关器输出后,再送入门限判决器进行判决,根据式(6)的判决准则,最终可恢复出信息信号bu (bN+u )。bu={+1,Zu≥0−1,Zu<0,bN+u={+1,ZN+u≥0−1,ZN+u<0 (6) 3. OMU-SR-DCSK系统性能分析
2阶Chebyshev映射作为最常用的产生混沌序列的混沌映射方程之一,且利用该映射产生的混沌序列拥有良好的数学统计特性。因此,OMU-SR-DCSK系统采用2阶Chebyshev映射产生混沌序列
xi,k ,并将其归一化。归一化后的混沌序列其均值为0,方差为1。多径Rayleigh衰落信道更接近于实际应用中的传输信道,因此采用两径Rayleigh衰落信道模型作为OMU-SR-DCSK系统信道模型,两径Rayleigh衰落信道模型如图4所示。
其中,
ni,k 是均值为0,方差为N0/2 的加性高斯白噪声,τ 是两个独立信道之间的延迟,α1 和α2 代表两个独立的、服从Rayleigh分布的信道随机变量,其概率密度函数表示为f(α|σ)=(α/σ2)e−α2/(2σ2),α>0 (7) 经图4中Rayleigh信道传输后,接收信号
ri,k 的表达式可表示为ri,k=α1si,k+α2si−τ,k+ni,k (8) 由于第k帧第
u 个和第N+u 个用户的解调方式相同,故以解调第k帧第u 个用户的信息比特为例,分析OMU-SR-DCSK系统理论BER公式的推导过程。则相关运算值Zu 的表达式可进一步表示为Zu=P∑p=1R∑i=1(ri,kri−R,kwi,u)=P∑p=1R∑i=1((α1N∑j=1wi,jbjxi−R,k+α2N∑j=1wi,jbjxi−R−τ,k+ni,P,k)⋅(α1xi−R,k+α2xi−R−τ,k+ni−R,k)wi,u)=A+B+C (9) A=P∑p=1R∑i=1(α21bux2i−R,k+α22bux2i−R−τ,k) (10) B=P∑p=1R∑i=1(ni,P,kni−R,kwi,u) (11) C=P∑p=1R∑i=1(α1xi−R,kni,P,k+α21N∑j=1,j≠uwi,jbjxi−R,kxi−R,kwi,u+α22N∑j=1,j≠uwi,jbjxi−R−τ,kxi−R−τ,kwi,u+α2xi−R−τ,kni,P,k+α1α2⋅N∑j=1,j≠uwi,jbjxi−R,kxi−R−τ,kwi,u+α1N∑j=1wi,jbjxi−R,kni−R,kwi,u+α2N∑j=1wi,jbjxi−R−τ,kni−R,kwi,u+2α1α2buxi−R,kxi−R−τ,k+α1α2N∑j=1,j≠uwi,jbjxi−R−τ,kxi−R,kwi,u) (12) 假设Rayleigh衰落信道的延迟
τ 远远小于符号间隔,忽略不计τ 的影响,有∑Ri=1xi,kxi−τ,k≈0 ;ni,k 和ni,p,k 具有相同的统计特性,都是均值为0、方差为N0/2 的高斯白噪声,其瞬时值服从高斯分布;ni,k 和xi,k 之间相互独立,且当i≠j 时,ni,k 和nj,k 之间也相互独立;系统等概率发送二进制信息“+1”和“–1”。基于以上假设,当扩频因子足够大时,
Zu 近似服从高斯分布,故采用高斯近似法推导OMU-SR-DCSK在Rayleigh衰落信道和AWGN信道下的理论BER公式,对式(9)计算均值和方差得E[Zu]=E[A]+E[B]+E[C]=(α21+α22)PR (13) Var[Zu]=Var[A]+Var[B]+Var[C]=12(α21+α22)(NP+1)PRN0+14PRN20 (14) BER[Zu]=12Pr(Zu<0|bu=+1)+12Pr(Zu≥0|bu=−1)=12erfc(|E[Zu]|√2Var[Zu]) (15) 其中,
E[⋅] 表示数学期望运算,Var[⋅] 表示方差运算,erfc(x)=2∫∞xe−μ2dμ/√π 为互补误差函数。将式(13)和式(14)代入式(15),计算第k帧第u个用户的BER公式为BER(Zu)=12erfc([|E[Zu]|√2Var[Zu]])=12erfc([(NP+1)(2NP+1)2NP(α21+α22)(EbN0)−1+(2NP+1)2R8PN2(α21+α22)2(EbN0)−2]−12) (16) 从而可得到OMU-SR-DCSK系统的瞬时BER公式为
BER(α1,α2)=12erfc([|E[Zj]|√2Var[Zj]])=12erfc([(NP+1)(2NP+1)2NP(α21+α22)(EbN0)−1+(2NP+1)2R8PN2(α21+α22)2(EbN0)−2]−12) (17) 令
γ1=α21(Eb/N0),γ2=α22(Eb/N0),γb=γ1+γ2 ,则式(17)可进一步化简为BER(γb)=12erfc([(NP+1)(2NP+1)2NP(γb)−1+(2NP+1)2R8PN2(γb)−2]−12) (18) 令
ˉγ1=E[γ1]=(Eb/N0)E[α21],ˉγ2=E[γ2]=(Eb/N0)E[α22] ,ˉγ1 和ˉγ2 服从式(19)的卡方分布f(γ)=e−γ/ˉγ/ˉγ,γ≥0 (19) 因此
γb=γ1+γ2 服从式(20)的卡方分布f(γb)={(e−γb/ˉγ1γb)/ˉγ21,E[α21]=E[α22](e−γb/ˉγ1−e−γb/ˉγ2)/(ˉγ1−γ2)E[α21]≠E[α22] (20) 由于信道参数是持续变化的,因此采用式(21)得到OMU-SR-DCSK在Rayleigh衰落信道下的BER公式为
BER=∫∞0BER(γb)f(γb)dγb=∫∞012erfc([(NP+1)(2NP+1)2NP(γb)−1+(2NP+1)2R8PN2(γb)−2]−12)f(γb)dγb (21) 令式(17)中
α1=1,α2=0 ,得到AWGN信道下的BER公式为BER=12erfc([(NP+1)(2NP+1)2NP(EbN0)−1+(2NP+1)2R8PN2(EbN0)−2]−12) (22) 4. OMU-SR-DCSK系统传输速率、能量效率和安全性分析
计算OMU-SR-DCSK和DCSK的传输速率
ROMU−SR−DCSK=2N/((R+2β)Tc) 和RDCSK=1/(2βTc) ,平均比特能量Eb,OMU−SR−DCSK=(1+2NP)RTcE(x2i,k)/(2N) 和Eb,DCSK=2βTcE(x2i,k) ,并分别将其代入式(23)和式(24),得到OMU-SR-DCSK相比于DCSK的传输速率提升百分比Rd 和节省比特能量的百分比EB 。Rd=ROMU−SR−DCSK−RDCSKRDCSK×100%=4Nβ−(2β+R)2β+R×100% (23) EB=Eb,DCSK−Eb,OMU-SR-DCSKEb,DCSK×100%=4Nβ−(1+2NP)R4Nβ×100% (24) 图5和图6中分别分析了
[P,N]=[4,2],[4,4] 时,Rd 和EB 的曲线。曲线表明:OMU-SR-DCSK相比于DCSK,极大程度上提升了传输速率,节约了比特能量。从式(23)和式(24)可以看出:当R=β 时,传输速率提高百分比Rd 只与用户数2N有关,比特能量节约百分比EB 只与用户数2N和重复次数P有关。图7和图8分别为DCSK和OMU-SR-DCSK的平方幅度谱。图7中,在归一化的比特频率为奇数时,DCSK的平方幅度为零,这是由于DCSK的信息信号只与参考信号同相或反相,从而导致了DCSK的安全性很低。而OMU-SR-DCSK的信息信号是N个信号的加和,且其参考时隙和信息时隙不等长,从图8中也可以发现,OMU-SR-DCSK的平方幅度谱具有类噪声性,证实了OMU-SR-DCSK的安全性很高。
5. 系统仿真结果及分析
本节将在AWGN信道和两径Rayleigh衰落信道下对OMU-SR-DCSK系统进行仿真,验证理论BER公式推导的正确性,为确保仿真结果的准确性,仿真值均是在
106 次仿真结果取平均值的前提下得到的。5.1 AWGN信道下的误码性能分析
图9为各项参数取值
[R,N,P]=[64,2,2],[128,2,2],[256,2,2] 时,系统BER随Eb/N0 变化的曲线,理论值和仿真值的良好契合验证了理论BER公式推导的准确无误性。图中显示R=64 时系统BER明显优于R=128 时的BER,这是由于R的增加导致信号间干扰增多,从而导致系统误码性能恶化。图10为
[R,N,P]=[128,1,4],[128,2,4],[128,4,4] 时,系统BER随Eb/N0 变化的曲线。R和P 一定,在Eb/N0≤10dB 的情况下,不同N值对应的BER值基本吻合,而当Eb/N0>12dB 时,BER随着N的增加而增加。据此可见:Eb/N0 较低的情况下,用户数变化不足以影响BER,此时扩频因子和重复次数为主要决定因素,而Eb/N0 较高的情况下,用户数成为误码性能恶化的主要影响因素。图11为
[R,N,P]=[128,4,1],[128,4,2],[128,4,4] 时,系统BER随Eb/N0 变化的曲线。R和N一定,当Eb/N0≤6dB 时,不同P 值对应的BER值基本吻合,而当Eb/N0>7dB 时,BER随着P 的增加而增加。与N变化对BER的影响类似,在Eb/N0 较低的情况下,P 值变化对误码性能的影响微乎其微,扩频因子和用户数为主要决定因素,而在Eb/N0 大于某个定值时,误码性能随着P 值的增加呈现恶化的趋势。区别于N值变化对系统误码性能影响的是:重复次数的变化对系统误码性能的影响更为显著。图12和图13为
Eb/N0=10dB,14dB , N和P 取不同数值时,系统BER随R变化的曲线。根据图中曲线可以发现:Eb/N0 越大误码性能越佳,且当Eb/N0 一定时,系统误码性能随着R的增加呈现恶化的趋势,最后趋于一个定值,而P值变化会影响这一定值,N值变化却不会影响这一定值。表1中对比了OMU-SR-DCSK, SRMR-DCSK, VHE-DCSK和MC-DCSK系统的传输速率和能量效率,假设这几种系统的
β 都相等。与长参考系统VHE-DCSK和短参考系统SRMR-DCSK相比,OMU-SR-DCSK的能量效率和传输速率都较优,而与多用户并行传输系统MC-DCSK相比,OMU-SR-DCSK采用多用户串行传输的方法,其能量效率虽优于MC-DCSK,但传输速率却远低于MC-DCSK。表 1 OMU-SR-DCSK, SRMR-DCSK, VHE-DCSK和MC-DCSK系统的能量效率及传输速率系统名称 传输速率(RB) 能量效率(Eη) OMU-SR-DCSK 2N/(R+2β) 2Nβ/(R+2Nβ) SRMR-DCSK N/(R+β) Nβ/(R+Nβ) VHE-DCSK N/(2β) N/(1+N) MC-DCSK N/β N/(1+N) 为进一步分析表1中对比的几种系统的误码性能,图14中对比了AWGN信道下这几种系统的BER曲线。假设所有系统传输的信息比特数都相等,且
β 也相等。观察图中BER曲线,当Eb/N0≤11dB 时,OMU-SR-DCSK, MC-DCSK和SRMR-DCSK的误码率基本相等,且都优于VHE-DCSK的误码率。但当Eb/N0>11dB 时,MC-DCSK的误码性能最优,其次是OMU-SR-DCSK。虽然OMU-SR-DCSK的误码性能差于多用户并行传输系统,但是相比于其他两种多用户串行传输系统,其误码性能较优。5.2 两径Rayleigh衰落信道下的误码性能分析
本小节将在两径Rayleigh衰落信道下分析了OMU-SR-DCSK的误码性能。图15为R不同时,两种不同增益情况下的OMU-SR-DCSK系统BER曲线,其中,情况1为等增益情况,平均信道增益取值为:
E[|α1|2]=E[|α2|2]=1/2 ,情况2为非等增益的情况,平均信道增益取值为:E[|α1|2]=1/5,E[|α2|2]=4/5 。与AWGN信道下仿真类似,BER随着R增大而增大,且等增益情况下系统误码性能总是优于非等增益情况下的误码性能。图16中对比了表1中几种系统的误码性能。当
Eb/N0 较小时,OMU-SR-DCSK和SRMR-DCSK的误码率基本相等,都略优于MC-DCSK。但随着信噪比的增加,MC-DCSK的误码率逐渐降低,最后都优于其他几种系统,与AWGN信道下的对比结果一致,相比于其他两种多用户串行传输系统,OMU-SR-DCSK的误码性能最优。6. 结束语
本文提出的OMU-SR-DCSK缩短了参考信号的长度,虽然会造成信噪比降低,从而影响系统的误码性能,但同时也提升了系统的传输速率、能量效率和安全性。此外,通过引入构造简单的Walsh码消除了用户间干扰,改善了OMU-SR-DCSK的误码性能,弥补了信噪比降低对系统误码性能造成的影响。通过仿真验证了OMU-SR-DCSK在传输速率和能量效率方面的优势,从而为其应用于多用户串行传输系统提供了理论依据。本文只分析了两路延迟线的情况,后续可扩展为M条延迟线,更大程度上提升系统的传输速率和能量效率;此外,将OMU-SR-DCSK与多载波技术结合,实现多用户并行传输也是后续需要研究的内容。
-
表 1 基于深度学习的RIS辅助通信的最新进展
表 2 参数设置
参数名称 参数值 RIS个数 10 训练大小 1000 训练学习率 0.001 迭代次数 20 测试集样本个数 500 -
[1] LIU An, HUANG Zhe, LI Min, et al. A survey on fundamental limits of integrated sensing and communication[J]. IEEE Communications Surveys & Tutorials, 2022, 24(2): 994–1034. doi: 10.1109/COMST.2022.3149272. [2] CHEN Zhen, TANG Jie, HUANG Lei, et al. Robust target positioning for reconfigurable intelligent surface assisted MIMO radar systems[J]. IEEE Transactions on Vehicular Technology, 2023, 72(11): 15098–15102. doi: 10.1109/TVT.2023.3284454. [3] MEALEY R M. A method for calculating error probabilities in a radar communication system[J]. IEEE Transactions on Space Electronics and Telemetry, 1963, 9(2): 37–42. doi: 10.1109/TSET.1963.4337601. [4] ZHANG J A, RAHMAN M L, WU Kai, et al. Enabling joint communication and radar sensing in mobile networks—a survey[J]. IEEE Communications Surveys & Tutorials, 2022, 24(1): 306–345. doi: 10.1109/COMST.2021.3122519. [5] TONEX. Introduction to 6G | IMT-2030[EB/OL]. https://www.tonex.com/training-courses/introduction-to-6g-imt-2030/, 2020. [6] CHEN Zhen, HUANG Lei, XIA Shuqiang, et al. Parallel channel estimation for RIS-assisted internet of things[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25(8): 9762–9773. doi: 10.1109/TITS.2024.3364248. [7] Communication Network., ZTE and China Unicom Achieve World's First 5G Mid-Band Network Verification of Reconfigurable Intelligent Surface in External Networks[EB/OL] https://www.c114.com.cn/news/127/a1167167.html, 2021.Communication Network.,ZTE and China Unicom Achieve World's First 5G Mid-Band Network Verification of Reconfigurable Intelligent Surface in External Networks[EB/OL] https://www.c114.com.cn/news/127/a1167167.html, 2021. [8] CHEN Zhen, TANG Jie, ZHANG Xiuyin, et al. Hybrid evolutionary-based sparse channel estimation for IRS-assisted mmWave MIMO systems[J]. IEEE Transactions on Wireless Communications, 2022, 21(3): 1586–1601. doi: 10.1109/TWC.2021.3105405. [9] HUANG Chongwen, MO Ronghong, and YUEN C. Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(8): 1839–1850. doi: 10.1109/JSAC.2020.3000835. [10] XU Wangyang, AN Jiancheng, XU Yongjun, et al. Time-varying channel prediction for RIS-assisted MU-MISO networks via deep learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2022, 8(4): 1802–1815. doi: 10.1109/TCCN.2022.3188153. [11] YANG Helin, XIONG Zehui, ZHAO Jun, et al. Deep reinforcement learning-based intelligent reflecting surface for secure wireless communications[J]. IEEE Transactions on Wireless Communications, 2021, 20(1): 375–388. doi: 10.1109/TWC.2020.3024860. [12] XU Wangyang, GAN Lu, and HUANG Chongwen. A robust deep learning-based beamforming design for RIS-assisted multiuser MISO communications with practical constraints[J]. IEEE transactions on Cognitive Communications and Networking, 2022, 8(2): 694–706. doi: 10.1109/TCCN.2021.3128605. [13] DEMIR Ö T and BJÖRNSON E. Is channel estimation necessary to select phase-shifts for RIS-assisted massive MIMO?[J]. IEEE Transactions on Wireless Communications, 2022, 21(11): 9537–9552. doi: 10.1109/TWC.2022.3177700. [14] SAIKIA P, SINGH K, TAGHIZADEH O, et al. DRL algorithms for efficient spectrum sharing in RIS-aided MIMO radar and cellular systems[C]. MILCOM 2022 - 2022 IEEE Military Communications Conference (MILCOM), Rockville, USA, 2022: 55–60. doi: 10.1109/MILCOM55135.2022.10017985. [15] ZHAO Jingjing, YU Lanchenhui, CAI Kaiquan, et al. RIS-aided ground-aerial NOMA communications: A distributionally robust DRL approach[J]. IEEE Journal on Selected Areas in Communications, 2022, 40(4): 1287–1301. doi: 10.1109/JSAC.2022.3143230. [16] PENG Zhangjie, ZHANG Zhibo, KONG Lei, et al. Deep reinforcement learning for RIS-aided multiuser full-duplex secure communications with hardware impairments[J]. IEEE Internet of Things Journal, 2022, 9(21): 21121–21135. doi: 10.1109/JIOT.2022.3177705. [17] 张在琛, 江浩. 智能超表面使能无人机高能效通信信道建模与传输机理分析[J]. 电子学报, 2023, 51(10): 2623–2634. doi: 10.12263/DZXB.20221352.ZHANG Zaichen and JIANG Hao. Channel modeling and characteristics analysis for high energy-efficient RIS-assisted UAV communications[J]. Acta Electronica Sinica, 2023, 51(10): 2623–2634. doi: 10.12263/DZXB.20221352. [18] ZHOU Hao, EROL-KANTARCI M, LIU Yuanwei, et al. Heuristic algorithms for RIS-assisted wireless networks: Exploring heuristic-aided machine learning[J]. IEEE Wireless Communications, 2024, 31(4): 106–114. doi: 10.1109/MWC.010.2300321. -