高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于强化学习指导模型预测控制算法的高速列车受电弓主动控制策略研究

彭宇祥 韩志伟 王惠 洪玮佳 刘志刚

彭宇祥, 韩志伟, 王惠, 洪玮佳, 刘志刚. 基于强化学习指导模型预测控制算法的高速列车受电弓主动控制策略研究[J]. 电子与信息学报. doi: 10.11999/JEIT250343
引用本文: 彭宇祥, 韩志伟, 王惠, 洪玮佳, 刘志刚. 基于强化学习指导模型预测控制算法的高速列车受电弓主动控制策略研究[J]. 电子与信息学报. doi: 10.11999/JEIT250343
PENG Yuxiang, HAN Zhiwei, WANG Hui, HONG Weijia, LIU Zhigang. Research on Active Control Strategies for High-speed Train Pantographs Based on Reinforcement Learning-guided Model Predictive Control Algorithms[J]. Journal of Electronics & Information Technology. doi: 10.11999/JEIT250343
Citation: PENG Yuxiang, HAN Zhiwei, WANG Hui, HONG Weijia, LIU Zhigang. Research on Active Control Strategies for High-speed Train Pantographs Based on Reinforcement Learning-guided Model Predictive Control Algorithms[J]. Journal of Electronics & Information Technology. doi: 10.11999/JEIT250343

基于强化学习指导模型预测控制算法的高速列车受电弓主动控制策略研究

doi: 10.11999/JEIT250343 cstr: 32379.14.JEIT250343
详细信息
    作者简介:

    彭宇祥:男,硕士生,研究方向为强化学习、主动控制

    韩志伟:男,副教授,研究方向为深度学习、图像处理

    王惠:男,博士生,研究方向为强化学习、控制算法

    洪玮佳:女,硕士生,研究方向为深度学习、图像处理

    刘志刚:男,教授,研究方向为人工智能、深度学习

    通讯作者:

    韩志伟 zw.han@my.swjtu.edu.cn

  • 中图分类号: TN922.3

Research on Active Control Strategies for High-speed Train Pantographs Based on Reinforcement Learning-guided Model Predictive Control Algorithms

  • 摘要: 受电弓-接触网系统的耦合性能是影响高速列车受流稳定性和整体运行效率的关键因素。该文旨在提出一种能应对复杂工况的主动控制策略,以降低弓网接触力波动。然而,现有主流方法各有瓶颈,如强化学习存在样本效率低、易陷入局部最优的问题,而模型预测控制则受限于短期优化视野。为融合二者优势,该文提出一种基于强化学习指导模型预测控制(RL-GMPC)的受电弓主动控制算法。首先,建立有限元弓网耦合模型,用于生成多工况弓网交互数据;其次,基于强化学习框架提出一种自适应潜在动力学模型,其从弓网交互数据中学习系统动力学世界模型,并基于时序差分思想训练状态价值函数;进一步,提出一种基于强化学习指导的模型预测控制框架,其在滚动时域内使用学习的动力学模型进行局部轨迹优化,并使用学习的终端状态价值函数来估计轨迹末端状态的预期累计奖励。实现了短期累计奖励回报和长期奖励估计的有效结合。最后对算法进行了有效性测试和鲁棒性分析,实验结果表明,在京沪线运行条件下,基于RL-GMPC算法对受电弓进行主动控制,列车在290, 320, 350和380 km/h工况下的接触力标准差分别降低了14.29%, 18.07%, 21.52%和34.87%,有效抑制了接触力波动。另外,该文算法在面对随机风扰动及接触网线路参数变化时也表现出优异的鲁棒性。
  • 图  1  受电弓归算质量模型

    图  2  接触网模型

    图  3  马尔可夫决策环境

    图  4  RL-GMPC网络结构图

    图  5  自适应潜在动力学模型

    图  6  不同强化学习算法奖励曲线对比

    图  7  380 km/h下不同算法控制下的接触力对比

    图  8  380km/h速度下接触力的功率谱密度对比

    图  9  接触力标准差对比图

    图  10  不同算法下的主动控制力

    图  11  380km/h下加入20%噪声扰动前后对比图

    1  RL-GMPC伪代码

     初始化:
      初始化优化器和网络参数,设置超参数
      ${\mu ^0},{\sigma ^0}$:动作分布参数
      $N,{N_\pi }$:轨迹采样数
     $H,J$:规划时域长度、规划迭代次数
     初始化经验回放缓冲区Buffer,环境Env
     编码状态:${z_t} = {h_\theta }({s_t})$
     for $j = 1,2,\cdots,k$ do
      从$\mathcal{N}$采样N条长度为H的动作序列
      使用$ {p_\phi } $,$ {d_\phi } $生成${N_\pi }$条长度H的路径
      //初始化路径回报,使用自适应动态、鲁棒奖励和价值
      对于$({a_t},{a_{t + 1}}, \cdots ,{a_{t + H}})$,做如下动态权重调整
       ${w_t} \leftarrow {\mathcal{L}_w}({z_t},{s_t})$,如式(18) //适应潜在动态 (ALD)
      for $ t = 0 ,1,\cdots, H - 1 $ do
       ${\phi ^r} \leftarrow {\phi ^r} + {R_\theta }({z_{\text{t}}},{a_{\text{t}}})$ //鲁棒奖励 (RRE)
       $ {z_{t + 1}} \leftarrow {d_q}({z_t},{a_t},{w_t}) $ //动态潜在转移
      ${\phi ^r} \leftarrow {\phi ^r} + \lambda {Q_T}({z_t},{a_t})$ //累加终端价值
      调整回报权重$ \leftarrow {{\mathrm{normalize}}\_{\mathrm{returns}}}{\text{(}}{\phi ^r})$
      基于$N + {N_\pi }$条轨迹回报对参数$\mu ,\sigma $进行更新
      $\mu ,\sigma $$ \leftarrow $适应性加权调整(基于优化回报${\phi ^r}$)
     返回$\mathcal{N}\left( {\mu ,{\sigma ^2}} \right)$ //使用ETO优化
    下载: 导出CSV

    表  1  RL-GMPC算法超参数设置

    参数数值参数数值
    经验缓冲区10 000折扣因子$\lambda $0.95~0.99
    规划视野长度H3温度系数$\tau $0.5
    迭代次数J6损失平衡系数0.1
    采样轨迹数量N128学习率3e-4
    采样轨迹长度H3批次大小64
    Q网络数量3目标网络更新率0.01
    最优轨迹样本数Ne32滚动优化步长1
    下载: 导出CSV

    表  2  接触网结构参数

    跨距(m)结构高度(m)承力索张力(N)接触线张力(N)承力索线密度/(kg/m)接触线线密度/(kg/m)
    501.620 00033 0001.0651.35
    下载: 导出CSV

    表  3  受电弓结构参数

    受电弓型号DSA380
    等效质量(kg)${m_{\text{1}}}$7.12
    ${m_{\text{2}}}$6
    ${m_{\text{3}}}$5.8
    等效阻尼(N·s/m)${c_{\text{1}}}$0
    ${c_2}$0
    ${c_3}$70
    等效刚度(N/m)${k_{\text{1}}}$9 340
    ${k_2}$14 100
    ${k_3}$0.1
    下载: 导出CSV

    表  4  不同算法下接触力标准差对比

    速度(km/h)未控制
    标准差
    H∞PPORL-GMPC
    29026.4525.9324.5822.67(14.29%)
    32032.6029.9327.5626.71(18.07%)
    35040.1136.8234.7631.48(21.52%)
    38052.4849.2638.7134.18(34.87%)
    下载: 导出CSV

    表  5  不同控制算法的性能与计算开销对比

    参数H∞PPORL-GMPC
    接触力标准差49.2638.7134.18
    单步推理时间< 1 ms11 ms23 ms
    模型内存占用< 1 MB14 MB39 MB
    收敛所需样本数N/A5×1041.5 x 104
    下载: 导出CSV

    表  6  380 km/h下不同控制策略接触力标准差对比

    扰动强度(%)未控制
    标准差
    H∞PPORL-GMPC
    052.4849.2638.7134.18(34.87%)
    552.9750.0144.5634.91(34.09%)
    1054.5053.2544.2336.08(33.80%)
    2059.1655.7848.2641.31(30.17%)
    下载: 导出CSV

    表  7  不同接触网配置下接触力标准差对比

    线路运行速度
    (km/h)
    标准差
    未控H∞PPORL-GMPC


    线
    32032.6029.9327.5626.71(18.07%)
    35040.1136.8234.7631.48(21.52%)
    38052.4849.2638.7134.18(34.87%)

    广
    线
    32030.0927.0725.4824.28(19.31%)
    35039.8936.1433,9430.94(22.44%)
    38050.0448.3938.0633.63(32.79%)


    线
    32032.3429.3428.1026.83(17.04%)
    35040.2135.7935.0731.82(20.87%)
    38051.4348.8239.7334.14(33.62%)
    下载: 导出CSV
  • [1] 余卫国, 熊幼京, 周新风, 等. 电力网技术线损分析及降损对策[J]. 电网技术, 2006, 30(18): 54–57,63. doi: 10.3321/j.issn:1000-3673.2006.18.011.

    YU Weiguo, XIONG Youjing, ZHOU Xinfeng, et al. Analysis on technical line losses of power grids and countermeasures to reduce line losses[J]. Power System Technology, 2006, 30(18): 54–57,63. doi: 10.3321/j.issn:1000-3673.2006.18.011.
    [2] 吴延波, 韩志伟, 王惠, 等. 基于双延迟深度确定性策略梯度的受电弓主动控制[J]. 电工技术学报, 2024, 39(14): 4547–4556. doi: 10.19595/j.cnki.1000-6753.tces.230694.

    WU Yanbo, HAN Zhiwei, WANG Hui, et al. Active pantograph control of deep reinforcement learning based on double delay depth deterministic strategy gradient[J]. Transactions of China Electrotechnical Society, 2024, 39(14): 4547–4556. doi: 10.19595/j.cnki.1000-6753.tces.230694.
    [3] 葛超, 张嘉滨, 王蕾, 等. 基于模型预测控制的自动驾驶车辆轨迹规划[J]. 计算机应用, 2024, 44(6): 1959–1964. doi: 10.11772/j.issn.1001-9081.2023050725.

    GE Chao, ZHANG Jiabin, WANG Lei, et al. Trajectory planning for autonomous vehicles based on model predictive control[J]. Journal of Computer Applications, 2024, 44(6): 1959–1964. doi: 10.11772/j.issn.1001-9081.2023050725.
    [4] DULAC-ARNOLD G, LEVINE N, MANKOWITZ D J, et al. Challenges of real-world reinforcement learning[J]. Machine Learning, 2021, 110(9): 2419–2468. doi: 10.1007/s10994-021-05961-4.
    [5] GUESTRIN C, LAGOUDAKIS M G, and PARR R. Coordinated reinforcement learning[C]. Proceedings of the 19th International Conference on Machine Learning, San Francisco, USA, 2002: 227–234.
    [6] HEGER M. Consideration of risk in reinforcement learning[M]. COHEN W W and HIRSH H. Machine Learning Proceedings 1994: Proceedings of the Eleventh International Conference. New Brunswick, 1994: 105–111. doi: 10.1016/B978-1-55860-335-6.50021-0.
    [7] VENKAT A N, HISKENS I A, RAWLINGS J B, et al. Distributed MPC strategies with application to power system automatic generation control[J]. IEEE Transactions on Control Systems Technology, 2008, 16(6): 1192–1206. doi: 10.1109/TCST.2008.919414.
    [8] LORENZEN M, CANNON M, and ALLGÖWER F. Robust MPC with recursive model update[J]. Automatica, 2019, 103: 461–471. doi: 10.1016/j.automatica.2019.02.023.
    [9] LIMON D, ALVARADO I, ALAMO T, et al. MPC for tracking piecewise constant references for constrained linear systems[J]. Automatica, 2008, 44(9): 2382–2387. doi: 10.1016/j.automatica.2008.01.023.
    [10] INCREMONA G P, FERRARA A, and MAGNI L. MPC for robot manipulators with integral sliding modes generation[J]. IEEE/ASME Transactions on Mechatronics, 2017, 22(3): 1299–1307. doi: 10.1109/TMECH.2017.2674701.
    [11] SONG Yang, LIU Zhigang, WANG Hongrui, et al. Nonlinear modelling of high-speed catenary based on analytical expressions of cable and truss elements[J]. Vehicle System Dynamics, 2015, 53(10): 1455–1479. doi: 10.1080/00423114.2015.1051548.
    [12] SCHIEHLEN W, GUSE N, and SEIFRIED R. Multibody dynamics in computational mechanics and engineering applications[J]. Computer Methods in Applied Mechanics and Engineering, 2006, 195(41/43): 5509–5522. doi: 10.1016/j.cma.2005.04.024.
    [13] 陈庆斌, 韩先国, 李猛, 等. 一种机构型牵制释放装置的动力学建模与分析[J]. 航天制造技术, 2024(6): 26–34. doi: 10.3969/j.issn.1674-5108.2024.06.005.

    CHEN Qingbin, HAN Xianguo, LI Meng, et al. Dynamic modeling and analysis of a mechanism-type holding release device[J]. Aerospace Manufacturing Technology, 2024(6): 26–34. doi: 10.3969/j.issn.1674-5108.2024.06.005.
    [14] 戈宝军, 殷继伟, 陶大军, 等. 基于励磁与调速控制的单机无穷大系统场-路-网时步有限元建模[J]. 电工技术学报, 2017, 32(3): 139–148. doi: 10.19595/j.cnki.1000-6753.tces.2017.03.016.

    GE Baojun, YIN Jiwei, TAO Dajun, et al. Modeling of field-circuit-network coupled time-stepping finite element for one machine infinite bus system based on excitation and speed control[J]. Transactions of China Electrotechnical Society, 2017, 32(3): 139–148. doi: 10.19595/j.cnki.1000-6753.tces.2017.03.016.
    [15] 陈忠华, 平宇, 陈明阳, 等. 波动接触力下弓网载流摩擦力建模研究[J]. 电工技术学报, 2019, 34(7): 1434–1440. doi: 10.19595/j.cnki.1000-6753.tces.180212.

    CHEN Zhonghua, PING Yu, CHEN Mingyang, et al. Research on current-carrying friction modeling of pantograph- catenary under fluctuation contact pressure[J]. Transactions of China Electrotechnical Society, 2019, 34(7): 1434–1440. doi: 10.19595/j.cnki.1000-6753.tces.180212.
    [16] 叶圣永, 王晓茹, 周曙, 等. 基于马尔可夫链蒙特卡罗方法的电力系统暂态稳定概率评估[J]. 电工技术学报, 2012, 27(6): 168–174. doi: 10.19595/j.cnki.1000-6753.tces.2012.06.025.

    YE Shengyong, WANG Xiaoru, ZHOU Shu, et al. Power system probabilistic transient stability assessment based on Markov chain Monte Carlo method[J]. Transactions of China Electrotechnical Society, 2012, 27(6): 168–174. doi: 10.19595/j.cnki.1000-6753.tces.2012.06.025.
    [17] 梁骅旗, 陆畅. 基于改进模型预测转矩控制的高精度PMSM控制方法研究[J]. 计算机测量与控制, 2025, 33(2): 152–160. doi: 10.16526/j.cnki.11-4762/tp.2025.02.020.

    LIANG Huaqi and LU Chang. High precision PMSM control method for predictive torque control based on improved model[J]. Computer Measurement & Control, 2025, 33(2): 152–160. doi: 10.16526/j.cnki.11-4762/tp.2025.02.020.
    [18] WANG Hui, HAN Zhiwei, LIU Zhigang, et al. Deep reinforcement learning based active pantograph control strategy in high-speed railway[J]. IEEE Transactions on Vehicular Technology, 2023, 72(1): 227–238. doi: 10.1109/TVT.2022.3205452.
    [19] HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]. Proceedings of the 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 1861–1870.
    [20] HANSEN N, SU Hao, and WANG Xiaolong. TD-MPC2: scalable, robust world models for continuous control[J]. arXiv preprint arXiv: 2310.16828, 2023. doi: 10.48550/arXiv.2310.16828. (查阅网上资料,不确定类型及格式是否正确,请确认).
    [21] DEWEY D. Reinforcement learning and the reward engineering principle[C]. Proceedings of the AAAI Spring Symposium, 2014. (查阅网上资料, 未找到出版地和doi信息, 请确认).
    [22] KUBANEK J, SNYDER L H, and ABRAMS R A. Reward and punishment act as distinct factors in guiding behavior[J]. Cognition, 2015, 139: 154–167. doi: 10.1016/j.cognition.2015.03.005.
  • 加载中
图(11) / 表(8)
计量
  • 文章访问数:  21
  • HTML全文浏览量:  10
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2025-04-30
  • 修回日期:  2025-09-12
  • 网络出版日期:  2025-09-16

目录

    /

    返回文章
    返回