Approach for Dynamic Flight Pricing Based on Strategy Learning
-
摘要: 机票动态定价旨在构建机票售价策略以最大化航班座位收益。现有机票定价算法都建立在提前预测各票价等级的需求量基础之上,会因票价等级需求量的预测偏差而降低模型性能。为此,提出基于策略学习的机票动态定价算法,其核心是不再预测各票价等级的需求量,而是将机票动态定价问题建模为离线强化学习问题。通过设计定价策略评估和策略更新的方式,从历史购票数据上学习具有最大期望收益的机票动态定价策略。同时设计了与现行定价策略和需求量预测方法的对比方法及评价指标。在两趟航班的多组定价结果表明:相比于现行机票销售策略,策略学习算法在座位收益上的提升率分别为30.94%和39.96%,且比基于需求量预测方法提升了6.04%和3.36%。Abstract: The core of the dynamic flight pricing is to yield a pricing strategy with maximum seat revenue. The state-of-the-art flight pricing approaches are built on forecasting the fare demand. They suffer low profit due to the inaccurate prediction. To tackle the above issue, an approach for dynamic flight pricing based on strategy learning is proposed. That approach resorts to reinforcement learning to output pricing strategy with the highest expected return. That strategy is learned by iteratively policy evaluation and policy improvement. The rate of profit improvement on the two flights is empirically 30.94% and 39.96% over the existing pricing strategy, while that rate is 6.04% and 3.36% over the demand forecasting algorithm.
-
Key words:
- Revenue management /
- Dynamic flight pricing /
- Reinforcement learning /
- Strategy learning
-
1. 引言
信号时延估计(Time Delay Estimation, TDE)在无线电监测及目标定位等领域发挥着重要作用。传统TDE算法大多是基于2阶或高阶统计量的,尽管在高斯噪声下这些方法可以表现出优良的性能,但在同频带干扰及脉冲噪声并存的复杂电磁环境下,其性能会显著下降。因此,研究TDE新算法显得尤为重要。
研究表明,在雷达、声呐和通信等信号处理问题中,许多信号的某些统计特性往往随时间按周期或多周期规律变化,即具有循环平稳性[1]。利用信号的循环平稳性可消除时延估计中的同频带干扰现象。Gardner等人[2,3]提出的一系列基于信号循环平稳性的TDE方法,在同频带干扰存在时表现出良好的性能。
在实际应用中,电磁、雷电等自然或人为因素的干扰,可能会导致噪声在极短时间内呈现出极强的脉冲性,称为脉冲噪声,常用Alpha稳定分布描述[4]。Alpha稳定分布可通过对参数的选择来描述不同程度、对称或不对称的脉冲噪声[5]。为了解决2阶或高阶统计量在脉冲噪声下不收敛的问题,文献中提出了一系列基于分数低阶统计量的TDE方法,例如FLOC[6](Fractional Lower-Order Covariance), FLOS-PHAT[7](FLOS PHAse Transform)以及最小p范数法[8]等。但基于分数低阶统计量的方法对噪声先验知识有一定的依赖性。作为通用的相似性度量工具,相关熵理论可以同时反映信号的时间结构和统计特性[9],具有更强的抑制脉冲噪声的能力,且不依赖于噪声的先验知识,故其逐渐成为消除脉冲噪声影响的主要方法。
循环相关熵方法[10,11]既可以抑制脉冲噪声,也可以消除同频带干扰的影响。文献[12-17]在原有基础上进一步丰富了循环相关熵的理论[12,13]与应用[14-17]。其中,文献[16,17]将循环相关熵应用于TDE中,具有较好的性能。文献[16]利用广义高斯核函数[18]替代循环相关熵中的高斯核函数,提出一种基于广义循环相关熵的TDE算法。该算法在脉冲性较强时仍可获得较好的估计效果,但广义高斯核函数的参数确定较繁琐,会影响算法的效率。文献[17]则是在相关熵的基础上,进一步将广义相关熵与循环统计量结合,提出另一种形式的广义循环相关熵,并通过仿真验证了该算法在同频带干扰及脉冲噪声并存下的有效性。该算法的优势是效率较高,无需计算广义高斯核的相关参数,但其性能会随脉冲噪声特征指数的减小而衰退。
为解决上述算法在强脉冲噪声下性能衰退的问题,受文献[19-23]利用有界非线性函数(Bounded Non-linear Function, BNF)处理脉冲噪声的启发,本文利用双曲正切函数作为有界非线性函数对基于广义循环相关熵[17]的方法进行改进,提出一种改进的广义循环相关熵时延估计(HTGCCE)算法,并通过实验表明该算法在强脉冲噪声及同频带干扰并存条件下具有很好的时延估计性能。
2. 背景
2.1 Alpha稳定分布
描述脉冲噪声最常用的模型是Alpha稳定分布,由于其没有统一的、封闭的概率密度函数,故常用式(1)所示的特征函数进行描述
ϕ(t)=exp{jat−γ|t|α[1+jβsgn(t)ω(t,α)]} (1) 式中,
0<α≤2 为特征指数,度量概率密度函数拖尾的厚度,当α=2 时,Alpha稳定分布与高斯分布一致;−1≤β≤1 为对称参数,当β=0 时,称为对称Alpha稳定分布(记为SαS );−∞<a<∞ 为位置参数;γ>0 为分散系数。2.2 TDE估计的信号模型
当脉冲噪声及同频干扰同时存在时,设TDE算法的信号模型为
x(t)=s(t)+w(t)+n1(t) (2) y(t)=s(t−D1)+w(t−D2)+n2(t) (3) 式中,
x(t) 与y(t) 分别为两个接收机的接收信号,目标信号s(t) 为具有循环平稳特性的调制信号;n1(t) 与n2(t) 为脉冲噪声;w(t) 是与s(t) 具有不同循环频率的同频带干扰信号;D1 与D2 分别为目标信号s(t) 与同频带干扰信号w(t) 的时延值。假设s(t),w(t),n1(t) 和n2(t) 均为零均值且相互独立。2.3 双曲正切函数
双曲正切函数tanh的解析形式为双曲正弦函数(sinh)与双曲余弦函数(cosh)的比值
g(x)=tanhx=sinhxcoshx=ex−e−xex+e−x (4) 双曲正切函数在实数域内为单调递增的奇函数,且其在
x∈(−0.5,0.5) 内近似线性;另外,双曲正切函数具有有界性,其值域范围为tanhx∈(−1,1) 。当信号值超出近似线性区域后,利用双曲正切函数进行幅度压缩,从而保证信号经过该函数处理后始终有界。3. 改进的广义循环相关熵时延估计方法
3.1 现有广义循环相关熵时延估计方法的局限性
文献[17]提出了一种广义循环互相关熵函数
Uxy(ε,τ) ,定义为Uxy(ε,τ)=⟨κσ(x(t)−y(t+τ))x(t)y(t+τ)e−j2πεt⟩t (5) 式中,
κσ(·) 为高斯核函数,其表达式为κσ(·)=1√2πσexp(−(·)22σ2) (6) 式中,
σ 为核长。由文献[17]知,这种广义循环互相关熵算法适用于在中等脉冲噪声下的应用,例如
α=1.4 且广义信噪比GSNR为–3 dB的情况。而当信号环境更加恶劣,即特征指数或广义信噪比进一步降低时,该算法性能的衰退会导致时延估计误差明显增加。另外,该算法并未分析验证信号与同频干扰具有相同载频不同波特率情况下的效果,即尚未表明算法抑制同频带干扰的能力。3.2 改进的广义循环相关熵函数的定义及性质
为解决上述算法存在的问题,本文利用双曲正切函数作为有界非线性函数[24]对
x(t)y(t+τ) 进行幅度压缩,使其乘积在脉冲噪声存在时始终有界,进而提升算法抑制脉冲噪声的能力。定义1 改进的广义自相关熵函数:对于循环平稳信号
x(t) ,改进的广义自相关熵函数定义为Vx(t,τ)=E[κσ(x(t)−x(t+τ))gx(t,τ)] (7) 式中,
gx(t,τ) 为gx(t,τ)=tanh(x(t)x(t+τ)) (8) 考虑改进的广义自相关熵函数
Vx(t,τ) 为周期函数,可将其写为傅里叶级数的形式Vx(t,τ)=+∞∑m=−∞Cx(ε,τ)ej2πεt (9) 式中
Cx(ε,τ)=⟨κσ(x(t)−x(t+τ))gx(t,τ)e−2jπεt⟩t (10) 称为改进的广义循环自相关熵函数,
ε=m/T0 为循环频率,m为正整数;⟨·⟩t=limT0→∞1T0∫T0/2−T0/2(·)dt 用来求时间平均。定义2 改进的广义循环互相关熵函数:设两循环平稳信号
x(t) 与y(t) ,二者循环频率相同,则定义x(t) 和y(t) 的改进的广义循环互相关熵函数Cxy(ε,τ) 为Cxy(ε,τ)=⟨κσ(x(t)−y(t+τ))gxy(t,τ)e−2jπεt⟩t (11) 式中,
ε 为目标信号的循环频率,gxy(t,τ) 为gxy(t,τ)=tanh(x(t)y(t+τ)) (12) 命题 若两循环平稳信号
x(t) 与y(t) 满足y(t)=x(t−D1) ,则Cxy(ε,τ)=Cx(ε,τ−D1) 。证明 由式(11)有
Cxy(ε,τ)=⟨κσ(x(t)−y(t+τ))tanh(x(t)⋅y(t+τ))e−2jπεt⟩t=⟨κσ(x(t)−x(t+τ−D1))tanh(x(t)⋅x(t+τ−D1))e−2jπεt⟩t=⟨κσ(x(t)−x(t+(τ−D1)))tanh(x(t)⋅x(t+(τ−D1)))e−2jπεt⟩t=Cx(ε,τ−D1) (13) 证毕
3.3 改进的广义循环相关熵时延估计方法
假设
x(t) 与y(t) 均包含M个采样点,即{x(n)}M−1n=0 和{y(n)}M−1n=0 ,这时,可将离散形式的改进的广义循环自相关熵函数Cx(ε,k) 与改进的广义循环互相关熵函数Cxy(ε,k) 分别写为Cx(ε,k)=1M−|k|M−|k|−1∑n=0[1√2πσe−(x(n)−x(n+k))22σ2tanh(x(n)x(n+k))e−2jπεn],|k|≤M−1 (14) Cxy(ε,k)=1M−|k|M−|k|−1∑n=0[1√2πσe−(x(n)−y(n+k))22σ2tanh(x(n)y(n+k))e−2jπεn],|k|≤M−1 (15) 又因为
|Cx(ε,−k)|=|1M−|−k|M−|−k|−1∑n=0[1√2πσe−(x(n)−x(n−k))22σ2tanh(x(n)x(n−k))e−2jπεn]|={|1M−kM−k−1∑n=0[1√2πσe−(x(n+k)−x(n))22σ2tanh(x(n+k)x(n))e−2jπεn]|,k≥0|1M+kM+k−1∑n=0[1√2πσe−(x(n)−x(n−k))22σ2tanh(x(n)x(n−k))e−2jπεn]|,k<0=|Cx(ε,k)| (16) 同理,结合式(13)可推得
|Cxy(ε,D1−k)|=|Cxy(ε,D1+k)| (17) 类比文献[3,16]可知,对于BPSK信号,欲在峰值处获得时延值,需进一步计算
|Cx(ε,k)| 及|Cxy(ε,k)| 的互相关Bxy(ε,e)=M∑k=−M|Cx(ε,k)||Cxy(ε,k−e)| (18) 得到时延估计值为
ˆD1=argmaxe{Bxy(ε,e)} (19) 4. 算法性能分析及计算机仿真
将本文基于改进的广义循环相关熵的TDE算法记为HTGCCE,3种对比算法分别为基于循环统计量的TDE算法,记为FLOCC[25],基于广义循环相关熵的TDE算法,记为GCCE1[17],基于广义高斯核相关熵的TDE算法,记为GCCE2[16]。由于GCCE1与GCCE2算法在估计时延时只求得了
Cxy(ε,k) ,为保证实验条件的一致性,后文实验中,均在GCCE1与GCCE2算法基础上进一步计算式(18)与式(19)。4.1 算法复杂度分析
本文HTGCCE算法主要由两个环节构成,即计算
Cxy(ε,k) 与Cx(ε,k) 环节,和进一步计算|Cx(ε,k)| 与|Cxy(ε,k)| 的互相关环节。其中,第1环节中Cxy(ε,k) 与Cxy(ε,k) 的计算复杂度均为O(M2) ,M为信号采样点数,二者合起来为O(2M2) 。第2环节中关于互相关的计算复杂度为O(4M2) 。这样,本文算法总的计算复杂度为O(6M2) 。作为对比的3种算法,其计算复杂度也均为O(6M2) 。由此可见,本文HTGCCE算法的计算复杂度与对比算法的相同。由后面的仿真实验可见,本文算法抑制脉冲噪声的能力更强,时延估计的性能更好。4.2 计算机仿真及结果分析
本节设置了3组实验来讨论所提算法的适用环境、比较各算法的时延估计性能以及探讨影响时延估计性能的因素。且使用时延估计正确率
Pa 来衡量时延估计算法的性能,Pa 的定义为Pa=NcN×100% (20) 式中,
Nc 表示估计正确的次数;N 为蒙特卡洛实验次数,后文计算Pa 时均将N 设为500。在后文实验中,若不特别说明,均对HTGCCE, FLOCC, GCCE1及GCCE2共4种算法进行仿真。实验条件设置为:目标信号为BPSK信号,载波频率为
f1 = 100 Hz,波特率为fd1 = 40 Baud,时延为D1=45 个采样间隔;同频带干扰信号也设为BPSK信号,载波频率为f2=f1 = 100 Hz,波特率为fd2 = 50 Baud,时延为D2=65 个采样间隔;采样频率设为fs = 1000 Hz;高斯核函数的核长设置为σ=1 ;循环频率设为目标信号的波特率值,即ε=fd1 = 40 Hz;信干比设为0 dB;广义信噪比GSNR设为–7 dB;脉冲噪声的特征指数设为α=1.2 ;且均假设脉冲噪声服从SαS 分布,并设a=0 ;FLOCC的两个系统阶数均设为α/2−0.02 ;定义广义信噪比为GSNR=10lg(Psγ)(dB) (21) 式中,
Ps 为信号功率。(1) 算法适用环境的讨论
实验1 HTGCCE算法提取目标信号的能力。实验中,设定循环频率范围为
ε∈[1,120]Hz 。由于信号的循环平稳性可将具有不同循环频率的信号进行分离,故图1中,当ε = 40 Hz时,时延估计的峰值在45处;当ε = 50 Hz时,峰值处的时延值为65。因此,图1可表明HTGCCE算法具有提取目标信号的能力。实验2 HTGCCE算法在各信号环境下的普适性。图2中各信号环境下的时延估计正确率均会随信噪比(广义信噪比)的增大而提升,且信号环境中无同频带干扰的正确率高于有同频带干扰的正确率。
综上可知,HTGCCE算法在同频带干扰及脉冲噪声并存的复杂电磁环境下效果较好,且即使某些信号环境中不存在脉冲噪声或同频带干扰信号,该算法仍具有较高的时延估计正确率。
(2) 各算法时延估计性能的比较
实验3 不同特征指数、广义信噪比GSNR及信干比下各算法性能的比较。其中,图3(a)中广义信噪比
GSNR∈[−15,15]dB ,当GSNR = –9 dB时,HTGCCE的正确率较GCCE2提升了40%;图3(b)中特征指数α∈[0.7,1.7] ,在极端条件α=0.7 时,HTGCCE较GCCE2的正确率提升了80%;图3(c)中信干比为–5~15 dB,从图可知,GCCE1算法表现出了良好的韧性,但HTGCCE的正确率随信干比的增大而迅速提升,且相对于GCCE1, GCCE2正确率最大提升达20%。综上可知,本文所提HTGCCE算法较其余3种算法性能更优、韧性更强,且在极端实验条件下也具有良好的时延估计性能。(3) 影响时延估计性能因素的探讨
实验4 特征指数、广义信噪比GSNR及信干比对时延估计性能影响的分析。图4中,广义信噪比
GSNR∈[−15,15]dB ,特征指数α∈[0.7,1.7] 。GSNR一定时,4种算法的正确率均随α 的增大而提高,且当GSNR升至–11 dB时,HTGCCE算法的正确率已接近100%,高于其余算法。同理,α 一定时,4种算法的正确率也随着GSNR的增大而上升,且HTGCCE的正确率随GSNR的增大迅速升至100%,明显快于其它算法。图5中,广义信噪比设为GSNR∈[−15,15]dB ,信干比的变化范围为–5~15 dB。当GSNR小于–9 dB时,HTGCCE与GCCE2的正确率随信干比的增大而提升,且HTGCCE上升速度快于GCCE2。而GCCE1与FLOCC的正确率始终较小,基本不随信干比的变化而变化;当信干比大于–9 dB时,HTGCCE与GCCE1即使在信干比较低时也可获得较高的正确率,时延估计性能明显优于其余算法。综上可知,在同频带干扰及脉冲噪声同时存在的复杂电磁环境中,各算法的时延估计性能均会受信干比、广义信噪比及特征指数的影响。且本文所提HTGCCE算法在各实验条件下均可得到较高的时延估计正确率,具有良好的韧性。
5. 结论
复杂电磁环境的影响会导致时延估计值误差过大。为改善时延估计算法在通频带干扰和脉冲噪声并存条件下的性能,本文在广义循环相关熵法的基础上,利用双曲正切函数对
x(t)y(t+τ) 进行幅度压缩,进一步提高脉冲噪声特征指数较小时算法的时延估计性能。仿真实验表明,虽然GCCE1及GCCE2在某些特定条件下也具有良好的时延估计性能,但在信噪比、信干比以及脉冲噪声特征指数均较小时,本文提出的HTGCCE明显优于其他算法。且HTGCCE受特征指数及信干比的影响较小,可以在较低信噪比的环境下获得较好的时延估计结果。 -
表 1 机票动态定价策略学习算法
输入 学习速率η,折扣因子γ,最大迭代次数episodes,航班总座位数N 航班第1天到T−1天的历史销售序列{s(n)0,a(n)0,r(n)0,···,s(n)v,a(n)v,r(n)v}T−1n=1 初始化 对于任何状态s和α,q(s,α)=0,k=0,n=1 Repeat: Repeat (对于第1天到T−1天的每趟离港航班): Repeat (对于此趟航班历史销售序列的每一步(s(n)t,a(n)t,r(n)t,s(n)t+1)): 策略评估:据式(3)更新动作值函数q(s(n)t,a(n)t) 策略更新:按式(4)调整策略π(s(n)t)=argmaxαq(s(n)t,a) Until 航班没有剩余座位或售票时间截止 n←n+1 Until n>T−1 k←k+1 Until k>episodes 输出 第T天的机票动态定价策略π(s)=argmaxαq(s,α) 表 2 旅客订票记录示例
身份证号 航空公司 航班号 出发机场 到达机场 出发日期 订单编号 票价等级 52893787 CA 1501 PEK SHA 20100308 2273651247 0.5213 55503718 CA 1501 PEK SHA 20100308 2745812364 0.8212 表 3 实验数据集的统计信息
航班 售票记录
总数销售
序列数状态、动作等
四元组数原始票价等级
(精确到万分位)预处理后的票价
等级(精确到千分位)预处理后的票价
等级(精确到百分位)票价
等级数各等级
平均票数票价
等级数各等级
平均票数票价
等级数各等级
平均票数CA1501 130118 718 102809 5737 22.68 1087 119.70 150 867.45 JR1505 22691 611 17102 2359 9.62 745 30.46 90 254.96 表 4 票价等级精确度影响分析
票价等级
精度训练集中票价
等级总数定价策略中出现
票价等级总数收益平均提升率
ALR@T(%)0.0001 4590 128 13.21 0.0100 120 16 16.38 -
SMITH B C, LEIMKUHLER J F, and DARROW R M. Yield management at American airlines[J]. Interfaces, 1992, 22(1): 8–31. doi: 10.1287/inte.22.1.8 GALLEGO G and VAN RYZIN G. Optimal dynamic pricing of inventories with stochastic demand over finite horizons[J]. Management Science, 1994, 40(8): 999–1020. doi: 10.1287/mnsc.40.8.999 OTERO D F and AKHAVAN-TABATABAEI R. A stochastic dynamic pricing model for the multiclass problems in the airline industry[J]. European Journal of Operational Research, 2015, 242(1): 188–200. doi: 10.1016/j.ejor.2014.09.038 DELAHAYE T, ACUNA-AGOST R, BONDOUX N, et al. Data-driven models for itinerary preferences of air travelers and application for dynamic pricing optimization[J]. Journal of Revenue and Pricing Management, 2017, 16(6): 621–639. doi: 10.1057/s41272-017-0095-z 高金敏, 乐美龙, 曲林迟, 等. 基于时变需求的机票动态定价研究[J]. 南京航空航天大学学报, 2018, 50(4): 570–576. doi: 10.16356/j.1005-2615.2018.04.020GAO Jinmin, LE Meilong, QU Linchi, et al. Dynamic pricing of air tickets based on time-varying demand[J]. Journal of Nanjing University of Aeronautics &Astronautics, 2018, 50(4): 570–576. doi: 10.16356/j.1005-2615.2018.04.020 SELC̣UK A M and AVṢAR Z M. Dynamic pricing in airline revenue management[J]. Journal of Mathematical Analysis and Applications, 2019, 478(2): 1191–1217. doi: 10.1016/j.jmaa.2019.06.012 LIN K Y and SIBDARI S Y. Dynamic price competition with discrete customer choices[J]. European Journal of Operational Research, 2009, 197(3): 969–980. doi: 10.1016/j.ejor.2007.12.040 施飞, 陈森发. 随时间变化的机票折扣定价研究[J]. 交通运输系统工程与信息, 2010, 10(1): 112–116. doi: 10.3969/j.issn.1009-6744.2010.01.017SHI Fei and CHEN Senfa. Air ticket discount pricing based on time varying[J]. Journal of Transportation Systems Engineering and Information Technology, 2010, 10(1): 112–116. doi: 10.3969/j.issn.1009-6744.2010.01.017 LEE J, LEE E and KIM J. Electric vehicle charging and discharging algorithm based on reinforcement learning with data-driven approach in dynamic pricing scheme[J]. Energies, 2020, 13(8): 1950. doi: 10.3390/en13081950 CHENG Yin, ZOU Luobao, ZHUANG Zhiwei, et al. An extensible approach for real-time bidding with model-free reinforcement learning[J]. Neurocomputing, 2019, 360: 97–106. doi: 10.1016/j.neucom.2019.06.009 陈前斌, 谭颀, 魏延南, 等. 异构云无线接入网架构下面向混合能源供应的动态资源分配及能源管理算法[J]. 电子与信息学报, 2020, 42(6): 1428–1435. doi: 10.11999/JEIT190499CHEN Qianbin, TAN Qi, WEI Yannan, et al. Dynamic resource allocation and energy management algorithm for hybrid energy supply in heterogeneous cloud radio access networks[J]. Journal of Electronics &Information Technology, 2020, 42(6): 1428–1435. doi: 10.11999/JEIT190499 GOSAVII A, BANDLA N, and DAS T K. A reinforcement learning approach to a single leg airline revenue management problem with multiple fare classes and overbooking[J]. IIE Transactions, 2002, 34(9): 729–742. doi: 10.1080/07408170208928908 SHIHAB S A M, LOGEMANN C, THOMAS D G, et al. Autonomous airline revenue management: A deep reinforcement learning approach to seat inventory control and overbooking[C]. The 36th International Conference on Machine Learning, Long Beach, USA, 2019: 132–139. QIU Qinfu and CHEN Xiong. Behaviour-driven dynamic pricing modelling via hidden Markov model[J]. International Journal of Bio-Inspired Computation, 2018, 11(1): 27–33. doi: 10.1504/IJBIC.2018.090071 LAWHEAD R J and GOSAVI A. A bounded actor-critic reinforcement learning algorithm applied to airline revenue management[J]. Engineering Applications of Artificial Intelligence, 2019, 82: 252–262. doi: 10.1016/j.engappai.2019.04.008 RAMASWAMY A and BHATNAGAR S. Stability of stochastic approximations with “controlled markov” noise and temporal difference learning[J]. IEEE Transactions on Automatic Control, 2019, 64(6): 2614–2620. doi: 10.1109/TAC.2018.2874687 -