高媛 方海 赵扬 杨旭

高媛, 方海, 赵扬, 杨旭. 基于自然梯度Actor-Critic强化学习的卫星边缘网络服务功能链部署方法[J]. 电子与信息学报, 2023, 45(2): 455-463. doi: 10.11999/JEIT211384
引用本文: 高媛, 方海, 赵扬, 杨旭. 基于自然梯度Actor-Critic强化学习的卫星边缘网络服务功能链部署方法[J]. 电子与信息学报, 2023, 45(2): 455-463. doi: 10.11999/JEIT211384
GAO Yuan, FANG Hai, ZHAO Yang, YANG Xu. A Satellite Edge Network Service Function Chain Deployment Method Based on Natural Gradient Actor-Critic Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2023, 45(2): 455-463. doi: 10.11999/JEIT211384
Citation: GAO Yuan, FANG Hai, ZHAO Yang, YANG Xu. A Satellite Edge Network Service Function Chain Deployment Method Based on Natural Gradient Actor-Critic Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2023, 45(2): 455-463. doi: 10.11999/JEIT211384


doi: 10.11999/JEIT211384
基金项目: 国家重点研发计划(2020YFB1808003)






    高媛 gaoy199034@126.com

  • 中图分类号: TN927.2

A Satellite Edge Network Service Function Chain Deployment Method Based on Natural Gradient Actor-Critic Reinforcement Learning

Funds: The National Key Research and Development Program of China (2020YFB1808003)
  • 摘要: 鉴于低轨卫星网络的高动态性和空间环境的复杂性,如何提供在线的快速服务功能链(SFC)部署方法,成为低轨卫星边缘网络中亟待解决的问题。综合考虑节点和链路容量等约束以及服务迁移等切换代价,针对部署多接入边缘计算(MEC)服务器的低轨卫星网络,该文提出一种基于自然梯度参与者-评价者(Actor-Critic)强化学习架构的SFC在线部署方法。首先,针对低轨卫星网络的环境高动态性, 对实时容量约束和迁移代价进行建模;其次,引入马尔可夫决策过程(MDP),综合考虑服务迁移和卫星坐标等因素,描述低轨卫星网络的状态转移过程;最后,提出一种基于自然梯度的在线SFC部署强化学习方法,不同于标准梯度,自然梯度法进行模型层面的更新,以避免神经网络的训练陷入局部最优解。仿真结果表明,该文方法可逼近全局最优解,并在端到端时延性能上优于基于标准梯度的强化学习部署方法。
  • 图  1  SFC部署和迁移示意图

    图  2  不同学习率和样本批量大小对平均奖励函数的影响

    图  3  不同服务请求个数对端到端时延性能的影响

    图  4  每条SFC内不同SF个数对端到端时延性能的影响

    图  5  每条极地轨道上卫星节点个数对端到端时延性能的影响

    算法1 基于自然梯度的Actor-Critic算法
     (1) 初始化神经网络参数$ {\boldsymbol{w}} $,$ {\boldsymbol{w}}' $,$ {\boldsymbol{\theta}} $和$ {\boldsymbol{\theta}} ' $和经验回放池$\mathcal{D}$
     (2) for episode=1, 2,···, E do
     (3) 重置环境,并重置${r_0} = 0$
     (4) for t = 0, 1,···, T–1 do
     (5)   根据Actor的策略函数${\pi _\theta }( \cdot |{s_t})$,随机抽样获取${a_t}$
     (6)   求解松弛式(15)的松弛问题,获取奖励值${r_t}$,并观察系
         统转移到的下一状态${{\boldsymbol{s}}_{t + 1}}$
     (7)   将4元组$({{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t},{r_t},{{\boldsymbol{s}}_{t + 1}})$存储到经验回放池$\mathcal{D}$
     (8)   随机抽取出包含$D$个样本的小批量
     (9)   根据式(20)和式(27),依序更新参数$ {\boldsymbol{w}} $和$ {\boldsymbol{\theta}} $
     (10)   按照设定的更新频率,更新$ {\boldsymbol{w}}' $和${\boldsymbol{ \theta}} ' $
     (11) end
     (12) end
  • 收稿日期:  2021-11-30
  • 修回日期:  2022-06-06
  • 录用日期:  2022-06-22
  • 网络出版日期:  2022-06-28
