李斌 沈立 赵传信 费泽松

李斌, 沈立, 赵传信, 费泽松. 基于柔性演员-评论家的通感算融合网络稳健资源优化[J]. 电子与信息学报. doi: 10.11999/JEIT240716
doi: 10.11999/JEIT240716
基金项目: 国家重点研发计划(2021YFB2900200),国家自然科学基金(62101277)






    赵传信 zhaocx@ahnu.edu.cn

  • 中图分类号: TN929.5

Robust Resource Optimization in Integrated Sensing, Communication, and Computing Networks Based on Soft Actor-Critic

Funds: The National Key R&D Program of China (2021YFB2900200), The National Natural Science Foundation of China (62101277)
  • 摘要: 通感算融合是6G的热点研究方向。为了解决复杂场景下通信-感知-计算模式的用户能耗大、计算不确定等问题,该文设计一种稳健的通感算融合网络资源分配与决策优化方案。首先,由于任务复杂度的不可预测,构建一个稳健的计算资源分配问题以优化卸载决策的不确定性。其次,在满足用户功耗、处理时间、雷达估计信息率等条件下,联合优化任务卸载比例、波束赋形和资源分配,建立用户总能耗最小化问题。由于该优化问题是多变量耦合且非凸的,将其建模为一个马尔可夫决策过程,提出一种基于柔性演员-评论家(SAC)优化算法。仿真结果表明,该算法在网络训练时更加稳定,能有效增强计算稳健性,与近端策略优化算法和优势动作评论算法相比,所提SAC算法在用户能耗方面分别减少了9.57%和40.72%。此外,用户数越多,能耗减少越显著。
    1  基于SAC的资源优化算法

     步骤1 初始化$ \phi $, $ {\xi } $, 经验池
     步骤2 对每个训练周期执行:
     步骤3   初始化用户坐标$ ({x_k}{\text{,}}{y_k}{\text{)}} $和任务类型z
     步骤4   对每个环境交互步骤执行:
     步骤5      获取当前环境状态$ {{s}_{n}} $
     步骤6      根据当前策略$ {{\pi }^*} $选择动作$ {{a}_{n}} $
     步骤7      执行动作$ {{a}_{n}} $
     步骤8      获取下一环境状态$ {{s}_{{n}{\text{+1}}}} $
     步骤9      计算回报$ {{r}_n} $
     步骤10      将经验元组$ {\text{(}}{{s}_{n}}{\text{,}}{{a}_{n}}{\text{,}}{{r}_n}{\text{,}}{{s}_{{n}{\text{+1}}}}{\text{)}} $存入经验池中
     步骤11   对每个梯度更新步骤执行:
     步骤12      从经验池随机采样小批次样本
     步骤13      计算损失函数$ {{L}_{\pi }}{\text{(}}{\phi }{\text{)}} $, $ {{L}_{Q}}{\text{(}}{{\xi }_{i}}{\text{)}} $和$ {L}{\text{(}}{\chi }{\text{)}} $
     步骤14      更新参数$ \phi $, $ {{\xi }_{i}} $, $ {\xi }'_{i} $和$ {\chi } $
    表  1  参数设置

    参数 数值
    时隙$ {\delta _n} $(s) $ 1.0 $
    最小雷达估计信息率$ R_{{\text{rad}}}^{\min } $(dB) $ {10^3} $
    用户最大发射功率$ P_k^{\max } $(W) $ {\text{0}}{\text{.5}} $
    用户最大计算频率$ {f}_k^{{\text{max}}} $(GHz) $ {\text{1}}{\text{.0}} $
    BS最大计算频率$ {f}_{{\text{ec}}}^{{\text{max}}} $(GHz) $ {\text{20}}{\text{.0}} $
    带宽B (MHz) $ {\text{20}} $
    雷达脉冲时长$ {\mu } $(s) $ {\text{2}} \times {\text{1}}{{\text{0}}^{{{ - 5}}}} $
    CPU有效电容系数$ {\varepsilon } $ $ {\text{1}}{{\text{0}}^{{{ - 27}}}} $
    雷达波形功率谱密度常数$ \eta $ $ \pi {\text{/}}\sqrt {\text{3}} $
    雷达占空因子$ {\nu } $ $ {\text{0}}{\text{.01}} $
    误差界限预定阈值$ {\varepsilon _z} $ $ {\text{55}} $
图(9) / 表(2)
