高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于深度强化学习的IRS辅助认知无线电系统波束成形算法

李国权 程涛 郭永存 庞宇 林金朝

李国权, 程涛, 郭永存, 庞宇, 林金朝. 基于深度强化学习的IRS辅助认知无线电系统波束成形算法[J]. 电子与信息学报, 2025, 47(3): 657-665. doi: 10.11999/JEIT240447
引用本文: 李国权, 程涛, 郭永存, 庞宇, 林金朝. 基于深度强化学习的IRS辅助认知无线电系统波束成形算法[J]. 电子与信息学报, 2025, 47(3): 657-665. doi: 10.11999/JEIT240447
LI Guoquan, CHENG Tao, GUO Yongcun, PANG Yu, LIN Jinzhao. Deep Reinforcement Learning Based Beamforming Algorithm for IRS Assisted Cognitive Radio System[J]. Journal of Electronics & Information Technology, 2025, 47(3): 657-665. doi: 10.11999/JEIT240447
Citation: LI Guoquan, CHENG Tao, GUO Yongcun, PANG Yu, LIN Jinzhao. Deep Reinforcement Learning Based Beamforming Algorithm for IRS Assisted Cognitive Radio System[J]. Journal of Electronics & Information Technology, 2025, 47(3): 657-665. doi: 10.11999/JEIT240447

基于深度强化学习的IRS辅助认知无线电系统波束成形算法

doi: 10.11999/JEIT240447
基金项目: 国家自然科学基金 (U21A20447),重庆市自然科学基金创新群体科学基金(cstc2020jcyj-cxttX0002)
详细信息
    作者简介:

    李国权:男,教授,博士生导师,研究方向为无线资源管理、智能反射面优化等

    程涛:男,硕士生,研究方向为无线资源管理、智能反射面

    郭永存:男,硕士生,研究方向为无线资源管理、智能反射面

    庞宇:男,教授,博士生导师,研究方向为集成电路设计、无线通信和人工智能等

    林金朝:男,教授,博士生导师,研究方向为无线通信传输技术与优化等

    通讯作者:

    李国权 ligq@cqupt.edu.cn

  • 中图分类号: TN929.5

Deep Reinforcement Learning Based Beamforming Algorithm for IRS Assisted Cognitive Radio System

Funds: The National Natural Science Foundation of China (U21A20447), The Foundation for Innovative Research Groups of the Natural Science Foundation of Chongqing (cstc2020jcyj-cxttX0002)
  • 摘要: 为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模量约束的情况下,建立一个联合优化次基站波束成形和IRS相移矩阵的资源分配模型;然后提出了一种基于深度确定性策略梯度的主被动波束成形算法,联合进行变量优化以最大化次用户和速率。仿真结果表明,所提算法相对于传统优化算法在和速率性能接近的情况下具有更低的时间复杂度。
  • 图  1  IRS辅助的认知无线电系统模型

    图  2  DDPG算法框架

    图  3  演员网络和评论家网络的DNN结构

    图  4  仿真场景图

    图  5  SBS发射功率与SU和速率的关系

    图  6  不同反射单元数量下算法的收敛性能

    图  7  不同SBS发射功率下奖励与时间步长的关系

    图  8  不同SBS发射功率下平均奖励与时间步长的关系

    图  9  不同学习率下的平均奖励与时间步长的关系

    图  10  在不同衰减率下的平均奖励与时间步长的关系

    1  基于DDPG的主被动波束成形算法训练

     输入:IRS辅助的下行链路多用户MISO-CR系统的所有CSI
     输出:最优动作${\boldsymbol{a}} = \left\{ {{{\boldsymbol{W}}_{\text{s}}},{\boldsymbol{\varTheta}} } \right\}$,Q值函数
     初始化:大小为$\mathcal{D}$经验回放池$\mathcal{M}$,随机初始化演员和评论家网
         络参数${\theta _\mu }$和${\theta _Q}$,赋值$ {\theta _{Q'}} \leftarrow {\theta _Q}{\text{ }},{\text{ }}{\theta _{\mu '}} \leftarrow {\theta _\mu } $
     for episode = $1,2,3, \cdots ,{T_1}$,进入循环
      初始化发射波束成形矩阵${\boldsymbol{W}}_{\text{s}}^{\left( 0 \right)}$、相移矩阵${{\boldsymbol{\varTheta}} ^{\left( 0 \right)}}$为单位矩阵作
      为${{\boldsymbol{a}}^{\left( 0 \right)}}$
      构建初始状态$ {{\boldsymbol{s}}^{\left( 0 \right)}} $
      for time steps= $1,2,3, \cdots ,{T_2}$,进入循环
      从演员网络中获取动作${a^{\left( t \right)}}$
      根据式(15)计算即时奖励${r^{\left( t \right)}}$
      根据式(3)计算所有SU的信干噪比$ \gamma _{{\text{SU}}}^{\left( t \right)} $
      构建在动作${{\boldsymbol{a}}^{\left( t \right)}}$下的状态${{\boldsymbol{s}}^{\left( {t + 1} \right)}}$
      存储经验数据组$\left( {{{\boldsymbol{s}}^{\left( t \right)}},{a^{\left( t \right)}},{r^{\left( t \right)}},{{\boldsymbol{s}}^{\left( {t + 1} \right)}}} \right)$到经验回放池中
      从$\mathcal{M}$中随机抽取大小为${N_{\mathrm{B}}}$的小批量经验样本
      根据式(6)得到目标Q值
      根据式(7)得到在线评论家网络损失函数$ L({\theta _Q}) $
      根据式(8)得到在线演员网络策略梯度$ {\nabla _{{\theta _\mu }}}J(\mu ) $
      根据式(9)更新评论家网络参数$ {\iota _Q} $
      根据式(10)更新演员网络参数${\iota _\mu }$
      根据式(11)更新目标评论家网络参数${\tau _Q}$
      根据式(12)更新目标演员网络参数${\tau _\mu }$
      更新状态${{\boldsymbol{s}}^{\left( t \right)}} \leftarrow {{\boldsymbol{s}}^{\left( {t + 1} \right)}}$
      end for
     end for
    下载: 导出CSV

    表  1  DDPG算法参数

    超参数 描述 参数值
    $\gamma $ 折扣率 0.99
    ${\iota _\mu },{\iota _Q}$ 演员、评论家网络的学习率 0.001
    ${\tau _\mu },{\tau _Q}$ 目标演员、目标评论家网络的学习率 0.001
    $ {\lambda _a},{\lambda _c} $ 训练演员、评论家网络的衰减率 0.00001
    ${L_1},{L_2}$ DNN隐藏层神经元数 1024
    $\mathcal{D}$ 经验回放池$\mathcal{M}$的大小 100000
    ${T_1}$ 回合数 10
    ${T_2}$ 每个回合的时间步长数 1000000
    ${N_{\mathrm{B}}}$ 小批量采样的大小 16
    下载: 导出CSV

    表  2  不同算法运行时间对比

    IRS反射单元数 基于交替优化(ms) 本文算法(ms)
    N=4 968.76 16.24
    N=10 1367.41 16.84
    N=20 2248.25 16.36
    N=30 3018.52 16.65
    下载: 导出CSV
  • [1] LI Guoquan, HONG Zijie, PANG Yu, et al. Resource allocation for sum-rate maximization in NOMA-based generalized spatial modulation[J]. Digital Communications and Networks, 2022, 8(6): 1077–1084. doi: 10.1016/j.dcan.2022.02.005.
    [2] LI Xingwang, ZHENG Yike, ALSHEHRI M D, et al. Cognitive AmBC-NOMA IoV-MTS networks with IQI: Reliability and security analysis[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(2): 2596–2607. doi: 10.1109/TITS.2021.3113995.
    [3] 李国权, 党刚, 林金朝, 等. RIS辅助的MISO系统安全鲁棒波束赋形算法[J]. 电子与信息学报, 2023, 45(8): 2867–2875. doi: 10.11999/JEIT220894.

    LI Guoquan, DANG Gang, LIN Jinzhao, et al. Secure and robust beamforming algorithm for RIS assisted MISO systems[J]. Journal of Electronics & Information Technology, 2023, 45(8): 2867–2875. doi: 10.11999/JEIT220894.
    [4] CHEN Guang, CHEN Yueyun, MAI Zhiyuan, et al. Joint multiple resource allocation for offloading cost minimization in IRS-assisted MEC networks with NOMA[J]. Digital Communications and Networks, 2023, 9(3): 613–627. doi: 10.1016/j.dcan.2022.10.029.
    [5] 熊军洲, 李国权, 王钥涛, 等. 基于有源智能反射面反射单元分组的反射调制系统[J]. 电子与信息学报, 2024, 46(7): 2765–2772. doi: 10.11999/JEIT231187.

    XIONG Junzhou, LI Guoquan, WANG Yuetao, et al. A reflection modulation system based on reflecting element grouping of active intelligent reflecting surface[J]. Journal of Electronics & Information Technology, 2024, 46(7): 2765–2772. doi: 10.11999/JEIT231187.
    [6] GUAN Xinrong, WU Qingqing, and ZHANG Rui. Joint power control and passive beamforming in IRS-assisted spectrum sharing[J]. IEEE Communications Letters, 2020, 24(7): 1553–1557. doi: 10.1109/LCOMM.2020.2979709.
    [7] LE A T, DO D T, CAO Haotong, et al. Spectrum efficiency design for intelligent reflecting surface-aided IoT systems[C]. GLOBECOM 2022 - 2022 IEEE Global Communications Conference, Rio de Janeiro, Brazil, 2022: 25–30. doi: 10.1109/GLOBECOM48099.2022.10000937.
    [8] YUAN Jie, LIANG Yingchang, JOUNG J, et al. Intelligent Reflecting Surface (IRS)-enhanced cognitive radio system[C]. ICC 2020 - 2020 IEEE International Conference on Communications (ICC), Dublin, Ireland, 2022: 1–6. doi: 10.1109/ICC40277.2020.9148890.
    [9] WANG Zining, LIN Min, HUANG Shupei, et al. Robust beamforming for IRS-aided SWIPT in cognitive radio networks[J]. Digital Communications and Networks, 2023, 9(3): 645–654. doi: 10.1016/j.dcan.2022.10.030.
    [10] LI Guoquan, ZHANG Hui, WANG Yuhui, et al. QoS guaranteed power minimization and beamforming for IRS-assisted NOMA systems[J]. IEEE Wireless Communications Letters, 2023, 12(3): 391–395. doi: 10.1109/LWC.2022.3189272.
    [11] FENG Keming, WANG Qisheng, LI Xiao, et al. Deep reinforcement learning based intelligent reflecting surface optimization for MISO communication systems[J]. IEEE Wireless Communications Letters, 2020, 9(5): 745–749. doi: 10.1109/LWC.2020.2969167.
    [12] HUANG Chongwen, MO Ronghong, and YUEN C. Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(8): 1839–1850. doi: 10.1109/JSAC.2020.3000835.
    [13] YANG Helin, XIONG Zehui, ZHAO Jun, et al. Deep reinforcement learning-based intelligent reflecting surface for secure wireless communications[J]. IEEE Transactions on Wireless Communications, 2021, 20(1): 375–388. doi: 10.1109/TWC.2020.3024860.
    [14] ZHONG Canwei, CUI Miao, ZHANG Guangchi, et al. Deep reinforcement learning-based optimization for IRS-assisted cognitive radio systems[J]. IEEE Transactions on Communications, 2022, 70(6): 3849–3864. doi: 10.1109/TCOMM.2022.3171837.
    [15] GUO Jianxin, WANG Zhe, LI Jun, et al. Deep reinforcement learning based resource allocation for intelligent reflecting surface assisted dynamic spectrum sharing[C]. 2022 14th International Conference on Wireless Communications and Signal Processing (WCSP), Nanjing, China, 2022: 1178–1183. doi: 10.1109/WCSP55476.2022.10039119.
    [16] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]. 4th International Conference on Learning Representations, San Juan, Puerto Rico, 2016.
    [17] WEI Yi, ZHAO Mingmin, ZHAO Minjian, et al. Channel estimation for IRS-aided multiuser communications with reduced error propagation[J]. IEEE Transactions on Wireless Communications, 2022, 21(4): 2725–2741. doi: 10.1109/TWC.2021.3115161.
    [18] HAN Yu, TANG Wankai, JIN Shi, et al. Large intelligent surface-assisted wireless communication exploiting statistical CSI[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 8238–8242. doi: 10.1109/TVT.2019.2923997.
  • 加载中
图(10) / 表(3)
计量
  • 文章访问数:  189
  • HTML全文浏览量:  49
  • PDF下载量:  30
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-04
  • 修回日期:  2025-02-17
  • 网络出版日期:  2025-02-26
  • 刊出日期:  2025-03-01

目录

    /

    返回文章
    返回