高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于策略学习的机票动态定价算法

卢敏 张耀元 卢春

邱天爽, 刘浩, 张家成, 李景春, 李蓉. 一种改进的广义循环相关熵时延估计方法[J]. 电子与信息学报, 2021, 43(2): 255-262. doi: 10.11999/JEIT200142
引用本文: 卢敏, 张耀元, 卢春. 基于策略学习的机票动态定价算法[J]. 电子与信息学报, 2021, 43(4): 1022-1028. doi: 10.11999/JEIT200778
Tianshuang QIU, Hao LIU, Jiacheng ZHANG, Jingchun LI, Rong LI. An Improved Time Delay Estimation Method Based on Generalized Cyclic Correntropy[J]. Journal of Electronics & Information Technology, 2021, 43(2): 255-262. doi: 10.11999/JEIT200142
Citation: Min LU, Yaoyuan ZHANG, Chun LU. Approach for Dynamic Flight Pricing Based on Strategy Learning[J]. Journal of Electronics & Information Technology, 2021, 43(4): 1022-1028. doi: 10.11999/JEIT200778

基于策略学习的机票动态定价算法

doi: 10.11999/JEIT200778
基金项目: 国家自然科学基金(61502499),民航航空公司人工智能重点实验室项目
详细信息
    作者简介:

    卢敏:男,1985年生,副研究员,博士,主要研究方向为机器学习、强化学习

    张耀元:女,1996年生,硕士生,主要研究方向为民航收益管理、强化学习

    卢春:男,1974年生,高级工程师,研究方向为航空公司收益管理

    通讯作者:

    卢敏 mlu@cauc.edu.cn

  • 中图分类号: TP311

Approach for Dynamic Flight Pricing Based on Strategy Learning

Funds: The National Natural Science Foundation of China (61502499), The Project from Key Laboratory of Artificial Intelligence for Airlines, CAAC
  • 摘要: 机票动态定价旨在构建机票售价策略以最大化航班座位收益。现有机票定价算法都建立在提前预测各票价等级的需求量基础之上,会因票价等级需求量的预测偏差而降低模型性能。为此,提出基于策略学习的机票动态定价算法,其核心是不再预测各票价等级的需求量,而是将机票动态定价问题建模为离线强化学习问题。通过设计定价策略评估和策略更新的方式,从历史购票数据上学习具有最大期望收益的机票动态定价策略。同时设计了与现行定价策略和需求量预测方法的对比方法及评价指标。在两趟航班的多组定价结果表明:相比于现行机票销售策略,策略学习算法在座位收益上的提升率分别为30.94%和39.96%,且比基于需求量预测方法提升了6.04%和3.36%。
  • 信号时延估计(Time Delay Estimation, TDE)在无线电监测及目标定位等领域发挥着重要作用。传统TDE算法大多是基于2阶或高阶统计量的,尽管在高斯噪声下这些方法可以表现出优良的性能,但在同频带干扰及脉冲噪声并存的复杂电磁环境下,其性能会显著下降。因此,研究TDE新算法显得尤为重要。

    研究表明,在雷达、声呐和通信等信号处理问题中,许多信号的某些统计特性往往随时间按周期或多周期规律变化,即具有循环平稳性[1]。利用信号的循环平稳性可消除时延估计中的同频带干扰现象。Gardner等人[2,3]提出的一系列基于信号循环平稳性的TDE方法,在同频带干扰存在时表现出良好的性能。

    在实际应用中,电磁、雷电等自然或人为因素的干扰,可能会导致噪声在极短时间内呈现出极强的脉冲性,称为脉冲噪声,常用Alpha稳定分布描述[4]。Alpha稳定分布可通过对参数的选择来描述不同程度、对称或不对称的脉冲噪声[5]。为了解决2阶或高阶统计量在脉冲噪声下不收敛的问题,文献中提出了一系列基于分数低阶统计量的TDE方法,例如FLOC[6](Fractional Lower-Order Covariance), FLOS-PHAT[7](FLOS PHAse Transform)以及最小p范数法[8]等。但基于分数低阶统计量的方法对噪声先验知识有一定的依赖性。作为通用的相似性度量工具,相关熵理论可以同时反映信号的时间结构和统计特性[9],具有更强的抑制脉冲噪声的能力,且不依赖于噪声的先验知识,故其逐渐成为消除脉冲噪声影响的主要方法。

    循环相关熵方法[10,11]既可以抑制脉冲噪声,也可以消除同频带干扰的影响。文献[12-17]在原有基础上进一步丰富了循环相关熵的理论[12,13]与应用[14-17]。其中,文献[16,17]将循环相关熵应用于TDE中,具有较好的性能。文献[16]利用广义高斯核函数[18]替代循环相关熵中的高斯核函数,提出一种基于广义循环相关熵的TDE算法。该算法在脉冲性较强时仍可获得较好的估计效果,但广义高斯核函数的参数确定较繁琐,会影响算法的效率。文献[17]则是在相关熵的基础上,进一步将广义相关熵与循环统计量结合,提出另一种形式的广义循环相关熵,并通过仿真验证了该算法在同频带干扰及脉冲噪声并存下的有效性。该算法的优势是效率较高,无需计算广义高斯核的相关参数,但其性能会随脉冲噪声特征指数的减小而衰退。

    为解决上述算法在强脉冲噪声下性能衰退的问题,受文献[19-23]利用有界非线性函数(Bounded Non-linear Function, BNF)处理脉冲噪声的启发,本文利用双曲正切函数作为有界非线性函数对基于广义循环相关熵[17]的方法进行改进,提出一种改进的广义循环相关熵时延估计(HTGCCE)算法,并通过实验表明该算法在强脉冲噪声及同频带干扰并存条件下具有很好的时延估计性能。

    描述脉冲噪声最常用的模型是Alpha稳定分布,由于其没有统一的、封闭的概率密度函数,故常用式(1)所示的特征函数进行描述

    ϕ(t)=exp{jatγ|t|α[1+jβsgn(t)ω(t,α)]}
    (1)

    式中,0<α2为特征指数,度量概率密度函数拖尾的厚度,当α=2时,Alpha稳定分布与高斯分布一致;1β1为对称参数,当β=0时,称为对称Alpha稳定分布(记为SαS); <a<为位置参数;γ>0为分散系数。

    当脉冲噪声及同频干扰同时存在时,设TDE算法的信号模型为

    x(t)=s(t)+w(t)+n1(t)
    (2)
    y(t)=s(tD1)+w(tD2)+n2(t)
    (3)

    式中,x(t)y(t)分别为两个接收机的接收信号,目标信号s(t)为具有循环平稳特性的调制信号;n1(t)n2(t)为脉冲噪声;w(t)是与s(t)具有不同循环频率的同频带干扰信号;D1D2分别为目标信号s(t)与同频带干扰信号w(t)的时延值。假设s(t),w(t),n1(t)n2(t)均为零均值且相互独立。

    双曲正切函数tanh的解析形式为双曲正弦函数(sinh)与双曲余弦函数(cosh)的比值

    g(x)=tanhx=sinhxcoshx=exexex+ex
    (4)

    双曲正切函数在实数域内为单调递增的奇函数,且其在x(0.5,0.5)内近似线性;另外,双曲正切函数具有有界性,其值域范围为tanhx(1,1)。当信号值超出近似线性区域后,利用双曲正切函数进行幅度压缩,从而保证信号经过该函数处理后始终有界。

    文献[17]提出了一种广义循环互相关熵函数Uxy(ε,τ),定义为

    Uxy(ε,τ)=κσ(x(t)y(t+τ))x(t)y(t+τ)ej2πεtt
    (5)

    式中,κσ(·)为高斯核函数,其表达式为

    κσ(·)=12πσexp((·)22σ2)
    (6)

    式中,σ为核长。

    由文献[17]知,这种广义循环互相关熵算法适用于在中等脉冲噪声下的应用,例如α=1.4且广义信噪比GSNR为–3 dB的情况。而当信号环境更加恶劣,即特征指数或广义信噪比进一步降低时,该算法性能的衰退会导致时延估计误差明显增加。另外,该算法并未分析验证信号与同频干扰具有相同载频不同波特率情况下的效果,即尚未表明算法抑制同频带干扰的能力。

    为解决上述算法存在的问题,本文利用双曲正切函数作为有界非线性函数[24]x(t)y(t+τ)进行幅度压缩,使其乘积在脉冲噪声存在时始终有界,进而提升算法抑制脉冲噪声的能力。

    定义1 改进的广义自相关熵函数:对于循环平稳信号x(t),改进的广义自相关熵函数定义为

    Vx(t,τ)=E[κσ(x(t)x(t+τ))gx(t,τ)]
    (7)

    式中,gx(t,τ)

    gx(t,τ)=tanh(x(t)x(t+τ))
    (8)

    考虑改进的广义自相关熵函数Vx(t,τ)为周期函数,可将其写为傅里叶级数的形式

    Vx(t,τ)=+m=Cx(ε,τ)ej2πεt
    (9)

    式中

    Cx(ε,τ)=κσ(x(t)x(t+τ))gx(t,τ)e2jπεtt
    (10)

    称为改进的广义循环自相关熵函数,ε=m/T0为循环频率,m为正整数;·t=limT01T0T0/2T0/2(·)dt用来求时间平均。

    定义2 改进的广义循环互相关熵函数:设两循环平稳信号x(t)y(t),二者循环频率相同,则定义x(t)y(t)的改进的广义循环互相关熵函数Cxy(ε,τ)

    Cxy(ε,τ)=κσ(x(t)y(t+τ))gxy(t,τ)e2jπεtt
    (11)

    式中,ε为目标信号的循环频率,gxy(t,τ)

    gxy(t,τ)=tanh(x(t)y(t+τ))
    (12)

    命题 若两循环平稳信号x(t)y(t)满足y(t)=x(tD1),则 Cxy(ε,τ)=Cx(ε,τD1)

    证明 由式(11)有

    Cxy(ε,τ)=κσ(x(t)y(t+τ))tanh(x(t)y(t+τ))e2jπεtt=κσ(x(t)x(t+τD1))tanh(x(t)x(t+τD1))e2jπεtt=κσ(x(t)x(t+(τD1)))tanh(x(t)x(t+(τD1)))e2jπεtt=Cx(ε,τD1)
    (13)

    证毕

    假设x(t)y(t)均包含M个采样点,即{x(n)}M1n=0{y(n)}M1n=0,这时,可将离散形式的改进的广义循环自相关熵函数Cx(ε,k)与改进的广义循环互相关熵函数Cxy(ε,k)分别写为

    Cx(ε,k)=1M|k|M|k|1n=0[12πσe(x(n)x(n+k))22σ2tanh(x(n)x(n+k))e2jπεn],|k|M1
    (14)
    Cxy(ε,k)=1M|k|M|k|1n=0[12πσe(x(n)y(n+k))22σ2tanh(x(n)y(n+k))e2jπεn],|k|M1
    (15)

    又因为

    |Cx(ε,k)|=|1M|k|M|k|1n=0[12πσe(x(n)x(nk))22σ2tanh(x(n)x(nk))e2jπεn]|={|1MkMk1n=0[12πσe(x(n+k)x(n))22σ2tanh(x(n+k)x(n))e2jπεn]|,k0|1M+kM+k1n=0[12πσe(x(n)x(nk))22σ2tanh(x(n)x(nk))e2jπεn]|,k<0=|Cx(ε,k)|
    (16)

    同理,结合式(13)可推得

    |Cxy(ε,D1k)|=|Cxy(ε,D1+k)|
    (17)

    类比文献[3,16]可知,对于BPSK信号,欲在峰值处获得时延值,需进一步计算|Cx(ε,k)||Cxy(ε,k)|的互相关

    Bxy(ε,e)=Mk=M|Cx(ε,k)||Cxy(ε,ke)|
    (18)

    得到时延估计值为

    ˆD1=argmaxe{Bxy(ε,e)}
    (19)

    将本文基于改进的广义循环相关熵的TDE算法记为HTGCCE,3种对比算法分别为基于循环统计量的TDE算法,记为FLOCC[25],基于广义循环相关熵的TDE算法,记为GCCE1[17],基于广义高斯核相关熵的TDE算法,记为GCCE2[16]。由于GCCE1与GCCE2算法在估计时延时只求得了Cxy(ε,k),为保证实验条件的一致性,后文实验中,均在GCCE1与GCCE2算法基础上进一步计算式(18)与式(19)。

    本文HTGCCE算法主要由两个环节构成,即计算Cxy(ε,k)Cx(ε,k)环节,和进一步计算|Cx(ε,k)||Cxy(ε,k)|的互相关环节。其中,第1环节中Cxy(ε,k)Cxy(ε,k)的计算复杂度均为O(M2)M为信号采样点数,二者合起来为O(2M2)。第2环节中关于互相关的计算复杂度为O(4M2)。这样,本文算法总的计算复杂度为O(6M2)。作为对比的3种算法,其计算复杂度也均为O(6M2)。由此可见,本文HTGCCE算法的计算复杂度与对比算法的相同。由后面的仿真实验可见,本文算法抑制脉冲噪声的能力更强,时延估计的性能更好。

    本节设置了3组实验来讨论所提算法的适用环境、比较各算法的时延估计性能以及探讨影响时延估计性能的因素。且使用时延估计正确率Pa来衡量时延估计算法的性能,Pa的定义为

    Pa=NcN×100%
    (20)

    式中,Nc表示估计正确的次数;N为蒙特卡洛实验次数,后文计算Pa时均将N设为500。

    在后文实验中,若不特别说明,均对HTGCCE, FLOCC, GCCE1及GCCE2共4种算法进行仿真。实验条件设置为:目标信号为BPSK信号,载波频率为f1 = 100 Hz,波特率为fd1 = 40 Baud,时延为D1=45个采样间隔;同频带干扰信号也设为BPSK信号,载波频率为f2=f1 = 100 Hz,波特率为fd2 = 50 Baud,时延为D2=65个采样间隔;采样频率设为fs = 1000 Hz;高斯核函数的核长设置为σ=1;循环频率设为目标信号的波特率值,即ε=fd1 = 40 Hz;信干比设为0 dB;广义信噪比GSNR设为–7 dB;脉冲噪声的特征指数设为α=1.2;且均假设脉冲噪声服从SαS分布,并设a=0;FLOCC的两个系统阶数均设为α/20.02;定义广义信噪比为

    GSNR=10lg(Psγ)(dB)
    (21)

    式中,Ps为信号功率。

    (1) 算法适用环境的讨论

    实验1 HTGCCE算法提取目标信号的能力。实验中,设定循环频率范围为ε[1,120]Hz。由于信号的循环平稳性可将具有不同循环频率的信号进行分离,故图1中,当ε = 40 Hz时,时延估计的峰值在45处;当ε = 50 Hz时,峰值处的时延值为65。因此,图1可表明HTGCCE算法具有提取目标信号的能力。

    图 1  不同循环频率下HTGCCE算法的时延估计图

    实验2 HTGCCE算法在各信号环境下的普适性。图2中各信号环境下的时延估计正确率均会随信噪比(广义信噪比)的增大而提升,且信号环境中无同频带干扰的正确率高于有同频带干扰的正确率。

    图 2  不同信号环境下HTGCCE算法的时延估计性能比较

    综上可知,HTGCCE算法在同频带干扰及脉冲噪声并存的复杂电磁环境下效果较好,且即使某些信号环境中不存在脉冲噪声或同频带干扰信号,该算法仍具有较高的时延估计正确率。

    (2) 各算法时延估计性能的比较

    实验3 不同特征指数、广义信噪比GSNR及信干比下各算法性能的比较。其中,图3(a)中广义信噪比GSNR[15,15]dB,当GSNR= –9 dB时,HTGCCE的正确率较GCCE2提升了40%;图3(b)中特征指数α[0.7,1.7],在极端条件α=0.7时,HTGCCE较GCCE2的正确率提升了80%;图3(c)中信干比为–5~15 dB,从图可知,GCCE1算法表现出了良好的韧性,但HTGCCE的正确率随信干比的增大而迅速提升,且相对于GCCE1, GCCE2正确率最大提升达20%。综上可知,本文所提HTGCCE算法较其余3种算法性能更优、韧性更强,且在极端实验条件下也具有良好的时延估计性能。

    图 3  不同特征指数、广义信噪比GSNR及信干比下各算法性能的比较

    (3) 影响时延估计性能因素的探讨

    实验4 特征指数、广义信噪比GSNR及信干比对时延估计性能影响的分析。图4中,广义信噪比GSNR[15,15]dB,特征指数α[0.7,1.7]。GSNR一定时,4种算法的正确率均随α的增大而提高,且当GSNR升至–11 dB时,HTGCCE算法的正确率已接近100%,高于其余算法。同理,α一定时,4种算法的正确率也随着GSNR的增大而上升,且HTGCCE的正确率随GSNR的增大迅速升至100%,明显快于其它算法。图5中,广义信噪比设为GSNR[15,15]dB,信干比的变化范围为–5~15 dB。当GSNR小于–9 dB时,HTGCCE与GCCE2的正确率随信干比的增大而提升,且HTGCCE上升速度快于GCCE2。而GCCE1与FLOCC的正确率始终较小,基本不随信干比的变化而变化;当信干比大于–9 dB时,HTGCCE与GCCE1即使在信干比较低时也可获得较高的正确率,时延估计性能明显优于其余算法。

    图 4  各算法时延估计性能随特征指数及广义信噪比变化图

    综上可知,在同频带干扰及脉冲噪声同时存在的复杂电磁环境中,各算法的时延估计性能均会受信干比、广义信噪比及特征指数的影响。且本文所提HTGCCE算法在各实验条件下均可得到较高的时延估计正确率,具有良好的韧性。

    图 5  各算法时延估计性能随广义信噪比及信干比变化图

    复杂电磁环境的影响会导致时延估计值误差过大。为改善时延估计算法在通频带干扰和脉冲噪声并存条件下的性能,本文在广义循环相关熵法的基础上,利用双曲正切函数对x(t)y(t+τ)进行幅度压缩,进一步提高脉冲噪声特征指数较小时算法的时延估计性能。仿真实验表明,虽然GCCE1及GCCE2在某些特定条件下也具有良好的时延估计性能,但在信噪比、信干比以及脉冲噪声特征指数均较小时,本文提出的HTGCCE明显优于其他算法。且HTGCCE受特征指数及信干比的影响较小,可以在较低信噪比的环境下获得较好的时延估计结果。

  • 图  1  两个航班上定价策略的性能对比

    图  2  2011年6月22日航班CA1501在精度为0.0100和0.0001下的实验对比

    图  3  学习速率对算法性能的影响

    表  1  机票动态定价策略学习算法

     输入 学习速率η,折扣因子γ,最大迭代次数episodes,航班总座位数N 航班第1天到T1天的历史销售序列{s(n)0,a(n)0,r(n)0,···,s(n)v,a(n)v,r(n)v}T1n=1
     初始化 对于任何状态sα,q(s,α)=0,k=0,n=1
     Repeat
     Repeat (对于第1天到T1天的每趟离港航班):
     Repeat (对于此趟航班历史销售序列的每一步(s(n)t,a(n)t,r(n)t,s(n)t+1)):
     策略评估:据式(3)更新动作值函数q(s(n)t,a(n)t)
     策略更新:按式(4)调整策略π(s(n)t)=argmaxαq(s(n)t,a)
     Until 航班没有剩余座位或售票时间截止
     nn+1
     Until n>T1
     kk+1
     Until k>episodes
     输出T天的机票动态定价策略π(s)=argmaxαq(s,α)
    下载: 导出CSV

    表  2  旅客订票记录示例

    身份证号航空公司航班号出发机场到达机场出发日期订单编号票价等级
    52893787CA1501PEKSHA2010030822736512470.5213
    55503718CA1501PEKSHA2010030827458123640.8212
    下载: 导出CSV

    表  3  实验数据集的统计信息

    航班售票记录
    总数
    销售
    序列数
    状态、动作等
    四元组数
    原始票价等级
    (精确到万分位)
    预处理后的票价
    等级(精确到千分位)
    预处理后的票价
    等级(精确到百分位)
    票价
    等级数
    各等级
    平均票数
    票价
    等级数
    各等级
    平均票数
    票价
    等级数
    各等级
    平均票数
    CA1501130118718102809573722.681087119.70150867.45
    JR1505226916111710223599.6274530.4690254.96
    下载: 导出CSV

    表  4  票价等级精确度影响分析

    票价等级
    精度
    训练集中票价
    等级总数
    定价策略中出现
    票价等级总数
    收益平均提升率
    ALR@T(%)
    0.0001459012813.21
    0.01001201616.38
    下载: 导出CSV
  • SMITH B C, LEIMKUHLER J F, and DARROW R M. Yield management at American airlines[J]. Interfaces, 1992, 22(1): 8–31. doi: 10.1287/inte.22.1.8
    GALLEGO G and VAN RYZIN G. Optimal dynamic pricing of inventories with stochastic demand over finite horizons[J]. Management Science, 1994, 40(8): 999–1020. doi: 10.1287/mnsc.40.8.999
    OTERO D F and AKHAVAN-TABATABAEI R. A stochastic dynamic pricing model for the multiclass problems in the airline industry[J]. European Journal of Operational Research, 2015, 242(1): 188–200. doi: 10.1016/j.ejor.2014.09.038
    DELAHAYE T, ACUNA-AGOST R, BONDOUX N, et al. Data-driven models for itinerary preferences of air travelers and application for dynamic pricing optimization[J]. Journal of Revenue and Pricing Management, 2017, 16(6): 621–639. doi: 10.1057/s41272-017-0095-z
    高金敏, 乐美龙, 曲林迟, 等. 基于时变需求的机票动态定价研究[J]. 南京航空航天大学学报, 2018, 50(4): 570–576. doi: 10.16356/j.1005-2615.2018.04.020

    GAO Jinmin, LE Meilong, QU Linchi, et al. Dynamic pricing of air tickets based on time-varying demand[J]. Journal of Nanjing University of Aeronautics &Astronautics, 2018, 50(4): 570–576. doi: 10.16356/j.1005-2615.2018.04.020
    SELC̣UK A M and AVṢAR Z M. Dynamic pricing in airline revenue management[J]. Journal of Mathematical Analysis and Applications, 2019, 478(2): 1191–1217. doi: 10.1016/j.jmaa.2019.06.012
    LIN K Y and SIBDARI S Y. Dynamic price competition with discrete customer choices[J]. European Journal of Operational Research, 2009, 197(3): 969–980. doi: 10.1016/j.ejor.2007.12.040
    施飞, 陈森发. 随时间变化的机票折扣定价研究[J]. 交通运输系统工程与信息, 2010, 10(1): 112–116. doi: 10.3969/j.issn.1009-6744.2010.01.017

    SHI Fei and CHEN Senfa. Air ticket discount pricing based on time varying[J]. Journal of Transportation Systems Engineering and Information Technology, 2010, 10(1): 112–116. doi: 10.3969/j.issn.1009-6744.2010.01.017
    LEE J, LEE E and KIM J. Electric vehicle charging and discharging algorithm based on reinforcement learning with data-driven approach in dynamic pricing scheme[J]. Energies, 2020, 13(8): 1950. doi: 10.3390/en13081950
    CHENG Yin, ZOU Luobao, ZHUANG Zhiwei, et al. An extensible approach for real-time bidding with model-free reinforcement learning[J]. Neurocomputing, 2019, 360: 97–106. doi: 10.1016/j.neucom.2019.06.009
    陈前斌, 谭颀, 魏延南, 等. 异构云无线接入网架构下面向混合能源供应的动态资源分配及能源管理算法[J]. 电子与信息学报, 2020, 42(6): 1428–1435. doi: 10.11999/JEIT190499

    CHEN Qianbin, TAN Qi, WEI Yannan, et al. Dynamic resource allocation and energy management algorithm for hybrid energy supply in heterogeneous cloud radio access networks[J]. Journal of Electronics &Information Technology, 2020, 42(6): 1428–1435. doi: 10.11999/JEIT190499
    GOSAVII A, BANDLA N, and DAS T K. A reinforcement learning approach to a single leg airline revenue management problem with multiple fare classes and overbooking[J]. IIE Transactions, 2002, 34(9): 729–742. doi: 10.1080/07408170208928908
    SHIHAB S A M, LOGEMANN C, THOMAS D G, et al. Autonomous airline revenue management: A deep reinforcement learning approach to seat inventory control and overbooking[C]. The 36th International Conference on Machine Learning, Long Beach, USA, 2019: 132–139.
    QIU Qinfu and CHEN Xiong. Behaviour-driven dynamic pricing modelling via hidden Markov model[J]. International Journal of Bio-Inspired Computation, 2018, 11(1): 27–33. doi: 10.1504/IJBIC.2018.090071
    LAWHEAD R J and GOSAVI A. A bounded actor-critic reinforcement learning algorithm applied to airline revenue management[J]. Engineering Applications of Artificial Intelligence, 2019, 82: 252–262. doi: 10.1016/j.engappai.2019.04.008
    RAMASWAMY A and BHATNAGAR S. Stability of stochastic approximations with “controlled markov” noise and temporal difference learning[J]. IEEE Transactions on Automatic Control, 2019, 64(6): 2614–2620. doi: 10.1109/TAC.2018.2874687
  • 加载中
图(3) / 表(4)
计量
  • 文章访问数:  2062
  • HTML全文浏览量:  872
  • PDF下载量:  170
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-09-20
  • 修回日期:  2021-02-04
  • 网络出版日期:  2021-03-02
  • 刊出日期:  2021-04-20

目录

/

返回文章
返回