高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于策略学习的机票动态定价算法

卢敏 张耀元 卢春

卢敏, 张耀元, 卢春. 基于策略学习的机票动态定价算法[J]. 电子与信息学报, 2021, 43(4): 1022-1028. doi: 10.11999/JEIT200778
引用本文: 卢敏, 张耀元, 卢春. 基于策略学习的机票动态定价算法[J]. 电子与信息学报, 2021, 43(4): 1022-1028. doi: 10.11999/JEIT200778
Min LU, Yaoyuan ZHANG, Chun LU. Approach for Dynamic Flight Pricing Based on Strategy Learning[J]. Journal of Electronics & Information Technology, 2021, 43(4): 1022-1028. doi: 10.11999/JEIT200778
Citation: Min LU, Yaoyuan ZHANG, Chun LU. Approach for Dynamic Flight Pricing Based on Strategy Learning[J]. Journal of Electronics & Information Technology, 2021, 43(4): 1022-1028. doi: 10.11999/JEIT200778

基于策略学习的机票动态定价算法

doi: 10.11999/JEIT200778
基金项目: 国家自然科学基金(61502499),民航航空公司人工智能重点实验室项目
详细信息
    作者简介:

    卢敏:男,1985年生,副研究员,博士,主要研究方向为机器学习、强化学习

    张耀元:女,1996年生,硕士生,主要研究方向为民航收益管理、强化学习

    卢春:男,1974年生,高级工程师,研究方向为航空公司收益管理

    通讯作者:

    卢敏 mlu@cauc.edu.cn

  • 中图分类号: TP311

Approach for Dynamic Flight Pricing Based on Strategy Learning

Funds: The National Natural Science Foundation of China (61502499), The Project from Key Laboratory of Artificial Intelligence for Airlines, CAAC
  • 摘要: 机票动态定价旨在构建机票售价策略以最大化航班座位收益。现有机票定价算法都建立在提前预测各票价等级的需求量基础之上,会因票价等级需求量的预测偏差而降低模型性能。为此,提出基于策略学习的机票动态定价算法,其核心是不再预测各票价等级的需求量,而是将机票动态定价问题建模为离线强化学习问题。通过设计定价策略评估和策略更新的方式,从历史购票数据上学习具有最大期望收益的机票动态定价策略。同时设计了与现行定价策略和需求量预测方法的对比方法及评价指标。在两趟航班的多组定价结果表明:相比于现行机票销售策略,策略学习算法在座位收益上的提升率分别为30.94%和39.96%,且比基于需求量预测方法提升了6.04%和3.36%。
  • 航空公司采用收益管理技术提升了2%至8%的票务年收入[1]。机票动态定价是收益管理的核心,旨在构建航班机票售价策略,将不同票价等级的机票适时地销售给不同的消费者,以实现收益最大化。

    Gallego等人[2]使用强度控制理论求解了不确定需求下预期收入的上限。Otero等人[3]采用阶段类型分布和更新过程建模客户购买机票的时间及购买概率。Delahaye等人[4]通过细分商务和休闲旅客的不同价格敏感度进行动态定价。高金敏等人[5]研究了时变需求下动态定价模型。Selcuk等人[6]针对4种不同的价格需求关系提出了精确的动态规划方法。除了上述面向垄断市场环境的定价研究[1-6],还有从竞争角度出发的定价研究[7,8]。Lin等人[7]构建了基于博弈论的实时价格预测模型。施飞等人[8]通过航空公司与旅客的动态博弈解决各等级票价的售票时间。

    现有机票动态定价方法都建立在提前预测各票价等级的需求量基础之上。然而,实际应用中各等级票价的需求量受节假日、季节、售票时机等诸多因素影响。基于历史销售数据进行函数拟合的需求量预测方法存在预测偏差,降低了建立在需求量预测方法之上的模型性能。为此,本文提出基于策略学习的机票动态定价算法。其核心是不再直接预测各票价等级的需求量,而是从历史购票数据上学习具有最大期望收益的机票定价策略。在两趟航班两年历史销售数据上的多组模拟定价结果表明:相比于现行定价策略,策略学习算法的票务收益平均提升率分别为30.94%和39.96%,且比需求量预测方法提升了6.04%和3.36%。

    目前存在将强化学习应用于收益管理领域的研究,如电动汽车[9]、广告竞价[10]、可再生能源管理[11]、机票超售及座位控制[12-15]。Gosavii等人[12]提出了面向超售和多等级票价的半马尔可夫决策模型。Shihab等人[13]采用深度强化学习优化航班座位控制策略。Qiu等人[14]建模了旅客行为驱动的航班定价。Lawhead等人[15]提出一种航班座位收益有界的动作评论算法。不同于上述工作,本文聚焦于采用离线强化学习求解机票动态定价策略。

    在机票销售期内以某票价等级出售机票,售票系统会得到立即收益,即座位销售数×票价等级×机票全价,同时减少航班剩余座位数。为了最大化后期座位收益,航班剩余座位数又影响下一时刻的机票定价。为此,机票动态定价受航班剩余座位数、定价策略和收益等相互影响,可建模为强化学习问题。

    航班机票动态定价的强化学习要素分别为:(1)状态集S表示航班剩余座位数。设n为某航班座位容量,航班在时刻t的状态(剩余座位数)stS={n,n1,···,0}。(2)动作集A表示所有的票价等级,本质为经济舱全票价的折扣率。航班在时刻t采用的动作(票价等级)为αtA。(3)策略函数π(α|s)表示在状态s下执行动作α的概率。策略函数是算法的学习目标,使得算法根据它产生动作序列。(4)收益函数r(s,α)表示在状态s下执行动作α的立即收益,取值为p×α×N,其中p,N分别为经济舱全价和销售的座位数。

    引入动作值函数qπ(s,α)以评估策略函数π(α|s)的好坏程度,见式(1)。式(1)的物理含义是给定状态s沿着策略π执行序贯性决策后预期总折扣奖励。

    qπ(s,α)=Eπ[+t=0γtr(st,αt)s0=s,α0=α]
    (1)

    其中,Eπ[]表示在策略π下的期望收益。γ[0,1]表示收益折扣因子,决定了未来收益的现值,即t+1时刻的收益只有当前收益的γt倍。学习目标是构建具有最大值qπ(s,α)的最优策略π,使得对于任何状态s都有q(s,π(s))qπ(s,α)。此时最优策略π的Bellman方程展开为

    qπ(s,α)=st+1Pr(st+1st=s,αt=α)×[r(st,at)+γmaxαq(st+1,α)]
    (2)

    其中,Pr(st+1|st=s,at=a)表示在状态st下执行动作at后跳转到状态st+1的概率。由于机票销售过程无法建模上述转移概率而仅可观察剩余座位数st+1,采用时序差分法[16]更新动作值函数。

    qπ(st,at)=qπ(st,at)+η(r(st,αt)+γmaxat+1qπ(st+1,at+1)qπ(st,at))
    (3)

    其中,η表示学习速率。当动作值函数通过更新达到收敛后,每个状态s在最优策略π的动作π(s)

    π(s)=argmaxαq(s,a)
    (4)

    由于航班动态定价的状态空间和动作空间都离散且有限,提出基于策略学习的机票动态定价算法,见表1。算法首先初始化一个2维矩阵Q-table以表示动作值函数q(s,α),其中矩阵的行数为状态空间数|S|,列数是动作空间数|A|。其次,在航班的第1天到T1天的历史销售序列上依次据式(3)和式(4)进行策略π的评估和改进。重复上述循环操作,直至算法达到预先设定的最大迭代次数。

    表 1  机票动态定价策略学习算法
     输入 学习速率η,折扣因子γ,最大迭代次数episodes,航班总座位数N 航班第1天到T1天的历史销售序列{s(n)0,a(n)0,r(n)0,···,s(n)v,a(n)v,r(n)v}T1n=1
     初始化 对于任何状态sα,q(s,α)=0,k=0,n=1
     Repeat
     Repeat (对于第1天到T1天的每趟离港航班):
     Repeat (对于此趟航班历史销售序列的每一步(s(n)t,a(n)t,r(n)t,s(n)t+1)):
     策略评估:据式(3)更新动作值函数q(s(n)t,a(n)t)
     策略更新:按式(4)调整策略π(s(n)t)=argmaxαq(s(n)t,a)
     Until 航班没有剩余座位或售票时间截止
     nn+1
     Until n>T1
     kk+1
     Until k>episodes
     输出T天的机票动态定价策略π(s)=argmaxαq(s,α)
    下载: 导出CSV 
    | 显示表格
    3.1.1   数据集

    实验数据集是航班历史机票销售序列,是由2010年1月1日到2011年12月31日的民航旅客订票日志PNR (Passenger Name Record)生成的。一条PNR是一次订票信息,主要字段包括旅客身份证号码(信息加密)、航空公司、航班号、出发机场和到达机场(机场三字码表示)、订单编号、票价等级等,示例见表2

    表 2  旅客订票记录示例
    身份证号航空公司航班号出发机场到达机场出发日期订单编号票价等级
    52893787CA1501PEKSHA2010030822736512470.5213
    55503718CA1501PEKSHA2010030827458123640.8212
    下载: 导出CSV 
    | 显示表格

    在民航旅客订票日志上第n天离港航班的机票销售序列生成过程为:首先按照组合字段(航班号,离港日期)筛选出此航班在第n天的订票记录,其次对筛选的记录按订单号升序排列,然后将具有相同订单号的订票记录合并以生成一个四元组(s(n)t,a(n)t,r(n)t,s(n)t+1)。其中s(n)t表示第n天离港航班在时刻t销售前的航班剩余座位数;a(n)t为当前订单的票价等级;r(n)t表示执行动作a(n)t的收益,取值为当前订单机票销售数×票价等级×机票全价;s(n)t+1表示时刻t销售后的航班剩余座位数。重复上述过程,直至生成航班机票销售序列。

    折中于算法在民航旅客订票日志上所有航班的运行时间,以及评价航班每一天动态定价策略,挑选在航线热度、经济舱总数、实际销售等方面差异较大的两个航班CA1501和JR1505进行实验,其统计信息见表3。民航旅客订票日志中票价等级的精度为0.0001,且各票价等级销售的机票数比较稀疏。意味着很多二元组(剩余座位数,票价等级)未在历史数据中出现,使得这些元组对应的动作值函数无法更新,导致后期动态定价存在较大的偏差。比如航班CA1501历史销售轨迹中产生了5737种票价等级,而各票价等级产生平均机票数为22.68,这表明动作值函数矩阵Q-table中某一列平均至少有255–22.68个元素未被更新,累计有5737×(255–22.68)个元素未更新,其中255是航班CA1501的总座位数。精确度为千分位也会产生类似的结论。为此,实验中将票价等级精度降至百分位,并在实验中分析万分位精度对航班座位收益的影响。

    表 3  实验数据集的统计信息
    航班售票记录
    总数
    销售
    序列数
    状态、动作等
    四元组数
    原始票价等级
    (精确到万分位)
    预处理后的票价
    等级(精确到千分位)
    预处理后的票价
    等级(精确到百分位)
    票价
    等级数
    各等级
    平均票数
    票价
    等级数
    各等级
    平均票数
    票价
    等级数
    各等级
    平均票数
    CA1501130118718102809573722.681087119.70150867.45
    JR1505226916111710223599.6274530.4690254.96
    下载: 导出CSV 
    | 显示表格
    3.1.2   评价指标

    为评价航班动态定价策略好坏程度,定义航班收益平均提升率ALR@T(Average Lift Rate at T days):

    ALR@T=1T1Tn=2G(n)πG(n)gG(n)g×100%
    (5)

    其中,ALR@T计算从第2天到第T天航班收益提升率的均值。从第2天开始实验评价的原因是:第1天没有历史销售序列导致算法无法学习第1天的航班定价策略;(G(n)πG(n)g)/G(n)g是第n天航班的收益提升率;G(n)π表示根据第n天动态定价策略π产生的收益;G(n)g则是基准算法在第n天航班上定价策略的收益。

    3.1.3   基准算法

    (1)航班现行定价策略

    历史销售序列本质反映航班现行定价策略。为了能与现行策略比较,动态定价策略π采取类似方法售票:在第n天离港航班的时刻t,若现行策略以票价等级a(n)t销售N(n)t张机票,则动态定价策略π在时刻t状态s(n)t会以票价等级π(s(n)t)销售N(n)t张机票。此时现行策略的收益G(n)g和定价策略π的收益G(n)π分别为

    G(n)g=ta(n)tN(n)t,G(n)π=tπ(s(n)t)N(n)t
    (6)

    (2)票价等级需求量预测方法

    票价等级需求量预测方法利用前n1天机票销售记录,预测航班第n天各票价等级的需求量。在软件1stOpt上利用麦夸特法分别拟合航班CA1501和JR1505的票价等级需求函数,平均拟合优度为94.28%和92.37%。设航班第n天各票价等级α1,···,α|A|的需求量为n1,···,n|A|,需求量预测方法的收益G(n)g=|A|i=1aini

    由于需求量预测方法无法产生机票销售序列,而策略π却需根据剩余座位数选择票价等级,两者无法直接对比。为了能够对比,策略π基于如下假设售票:(a)将航班机票售卖期划分为m个离散周期l=1,2,···,m;(b)各周期内旅客购买票价等级αi的数量服从均值为ni/m的泊松分布;(c)每次仅售1张机票。使用hli表示第l周期中票价等级αi的销售量,第l周期总销售量为hl=|A|i=1hli。两定价策略在第1张机票销售收益差Δ1

    Δ1=argmaxaq(s(n)0,a)[h11h1a1+h12h1a2+···+h1|A|h1a|A|]
    (7)

    其中,argmaxαq(s(n)0,α)表示策略π在状态s(n)0下采取动作a=π(s(n)0)的收益。|A|i=1h1iαi/h1是需求量预测方法的第1张机票平均收益,其计算原理是:因无法建模机票销售顺序,假设所有销售序列都是等可能的,则第1周期内第1张机票以票价等级α1,···,α|A|出售概率是h11/h1,···,h1|A|/h1。依式(7)类推,第1周期内总收益差为

    h1i=1Δi=|S|s=|S|h1+1argmaxaq(s,a)[h11a1+h12a2+···+h1|A|a|A|]
    (8)

    其中,|S|为航班总座位数。依式(8)计算m个周期的收益差,需求量预测方法和策略π在第n天航班收益差为

    G(n)πG(n)g=|S|s=|S|(n1+n2+···+n|A|)+1argmaxaq(s,a)|A|i=1aini
    (9)
    3.1.4   参数设置和运行环境

    航班CA1501和JR1505经济舱总座位数N分别为255和52。算法需预先设置的参数分别为:学习速率η=0.2,0.4,0.6,0.8、折扣因子γ=1、算法总迭代次数episodes=5000。算法硬件环境为Intel(R) Xeon(R) Silver 4110、主频3.4 GHz、内存126 GB。实验训练共耗约142 h。

    3.2.1   航班 CA1501实验结果

    在航班CA1501进行了717组实验,其结果见图1(a)。相比于现行定价策略,动态定价策略π的收益平均提升率ALR@T为30.94%;相比票价等级需求量预测方法,平均提升率为6.04%。

    图 1  两个航班上定价策略的性能对比

    图1(a)中动态定价策略π相比于现行定价策略的提升率曲线—策略πvs现行定价策略—可分为4段。在2010年1月2日到2010年2月10日,1月1日至1月3日票务收益较差,使得学习后的策略收益也低。1月4日收益较1月3日增长了115%,算法能快速学习此定价策略以用于后续定价。故此阶段内曲线出现骤增,平均提升率ALR@T稳定至约35%。在2010年2月11日到2010年2月19日曲线出现第2次骤增,其原因是:2010年2月11日为农历腊月二十八,出现“倒春运”,即机票销售数和价格都明显下跌,期间平均收益仅为整体的32.29%。然而,定价策略π是从2月11日之前销售数据上学习,导致策略π的机票价格要高于“倒春运”期间价格,出现较大收益差值。第3段为2010年2月11日到2011年1月30日,曲线逐渐降低并趋于平稳,收敛至约21%。其原因是:在大量历史数据上的学习,动态定价策略与现行定价策略的收益差值逐渐减小。最后一次曲线提升发生在2011年2月1日,其原因是:2011年2月1日为农历腊月二十九,也出现“倒春运”,因在大量历史数据上的学习避免了类似第1次突变,趋于平稳。

    图1(a)也列出了定价策略π相比于需求量预测方法的提升率曲线—策略πvs需求量预测方法。实验初期因训练数据较少,动态定价策略产生的收益低于需求量预测方法。随着训练数据的增加,策略学习方法与需求量预测方法的收益差距逐渐减小,曲线平稳提升并趋于稳定,最终收益平均提升率为6.04%。

    3.2.2   航班JR1505实验结果

    相比于航班CA1501,航班JR1505收益更易受定价影响。航班JR1505上的610组实验结果见图1(b)。动态定价策略π相比于现行定价策略和需求量预测方法的收益平均提升率ALR@T分别为39.96%和3.36%。

    图1(b)可知,动态定价策略π相比于现行定价策略的提升率曲线—策略πvs现行定价策略,主要可分为3段。2010年1月26日到2010年11月10日为第1个增长期。定价策略π通过不断学习以往经验,平均提升率ALR@T逐渐提升,在4月20日趋于平稳,收敛至25%。第2个增长周期发生在2010年11月2日,其原因是:航班JR1505在此后一个月机票销售收益较前一月平均降低了43.80%,使得收益差值增加,曲线逐渐上升。第3个拐点发生在2011年4月20日,其原因是:航班由淡季转为旺季,此后一月较上月收益提升41.22%。实际收益的提升使得差值逐渐减小,曲线回落并重新收敛至39%。此外,相比于需求量预测方法,策略学习方法随着不断学习,平均提升率ALR@T平稳提升并趋于稳定,最终收敛至约3%。

    表4表明不同的票价等级精度产生不同规模的票价等级,为此分析票价等级精度对算法性能的影响。表4列出2011年6月22日航班CA1501在票价等级精度为0.0001和0.0100的实验结果。万分位精度产生了4590个动作,而百分位精度缩减至120个动作。百分位精度较万分位在平均提升率ALR@T上提升3.17%。

    表 4  票价等级精确度影响分析
    票价等级
    精度
    训练集中票价
    等级总数
    定价策略中出现
    票价等级总数
    收益平均提升率
    ALR@T(%)
    0.0001459012813.21
    0.01001201616.38
    下载: 导出CSV 
    | 显示表格

    分析算法在精度为0.0100时性能提升的原因。图2(a)列出票价等级精度分别为0.0100和0.0001时定价策略π在各状态上的票价等级差值。统计表明,不同精度下的模型在所有状态上采取的票价等级总体相差不大,票价等级差的均值为0.05,方差为0.006。仍有部分点波动较大,造成收益差距。图2(b)以波动点—剩余座位数196为例分析。当精度为0.0001时,采取的票价等级为0.8453,落在区间(0.84,0.85]频数为8。当精度为0.0100时,采取的票价等级为1.04,落在区间(1.03,1.04]频数为65。为此,精度为0.0100更易捕捉具有明显集中趋势的“众数”票价等级,以代表此状态下整体票价水平,而非选择出现频次最高的单一票价等级。

    图 2  2011年6月22日航班CA1501在精度为0.0100和0.0001下的实验对比

    学习速率η影响着算法的收敛速度和定价策略的收益,以2011年12月31日航班CA1501为例分析学习速率的影响。图3(a)指出学习速率为0.2, 0.4, 0.6, 0.8时,算法收敛的迭代次数依次为4860, 2167, 1274, 788。因此,经验上学习速率在0.2以上就能保证算法收敛。图3(b)指出算法在5000次迭代时,增大学习率不会对收益平均提升率ALR@T产生影响,其中计算ALR@T的基准算法为航班现行定价策略。

    图 3  学习速率对算法性能的影响

    上述经验分析指出学习速率η=0.2,0.4,0.6,0.8都是可取范围,在实验过程中学习速率取值为0.6,其原因:(1)折中于算法整体运行时间。由于航班CA1501和JR1505分别需要进行717和610组实验,而每组实验的运行时间正比于算法迭代次数,当学习速率η=0.6时,算法能够更快收敛。(2)突出同一趟航班上离起飞日期越近的座位票价影响要略大于较早售出座位的票价。当将式(3)重写为qπ(st,at)=(1η)qπ(st,at)+η(r(st,αt)+γmaxat+1qπ(st+1,at+1))时,可知学习速率η越大,保留之前训练的效果就越少。如学习速率为1,则训练过程中只考虑新销售的座位的票价,不保留之前训练的效果,不符合实际。

    针对航班票价定价过程中航班剩余座位数与机票价格相互影响,提出了基于策略学习的机票动态定价算法。算法通过定价策略评估和策略更新,输出具有最大期望收益的机票动态定价策略。在海量民航旅客订票日志上两个航班的多组模拟定价结果表明:相比于现行机票销售策略和需求量预测方法,算法在收益平均提升率上有显著的提升。后续将对航班状态的时序特征展开研究。

  • 图  1  两个航班上定价策略的性能对比

    图  2  2011年6月22日航班CA1501在精度为0.0100和0.0001下的实验对比

    图  3  学习速率对算法性能的影响

    表  1  机票动态定价策略学习算法

     输入 学习速率η,折扣因子γ,最大迭代次数episodes,航班总座位数N 航班第1天到T1天的历史销售序列{s(n)0,a(n)0,r(n)0,···,s(n)v,a(n)v,r(n)v}T1n=1
     初始化 对于任何状态sα,q(s,α)=0,k=0,n=1
     Repeat
     Repeat (对于第1天到T1天的每趟离港航班):
     Repeat (对于此趟航班历史销售序列的每一步(s(n)t,a(n)t,r(n)t,s(n)t+1)):
     策略评估:据式(3)更新动作值函数q(s(n)t,a(n)t)
     策略更新:按式(4)调整策略π(s(n)t)=argmaxαq(s(n)t,a)
     Until 航班没有剩余座位或售票时间截止
     nn+1
     Until n>T1
     kk+1
     Until k>episodes
     输出T天的机票动态定价策略π(s)=argmaxαq(s,α)
    下载: 导出CSV

    表  2  旅客订票记录示例

    身份证号航空公司航班号出发机场到达机场出发日期订单编号票价等级
    52893787CA1501PEKSHA2010030822736512470.5213
    55503718CA1501PEKSHA2010030827458123640.8212
    下载: 导出CSV

    表  3  实验数据集的统计信息

    航班售票记录
    总数
    销售
    序列数
    状态、动作等
    四元组数
    原始票价等级
    (精确到万分位)
    预处理后的票价
    等级(精确到千分位)
    预处理后的票价
    等级(精确到百分位)
    票价
    等级数
    各等级
    平均票数
    票价
    等级数
    各等级
    平均票数
    票价
    等级数
    各等级
    平均票数
    CA1501130118718102809573722.681087119.70150867.45
    JR1505226916111710223599.6274530.4690254.96
    下载: 导出CSV

    表  4  票价等级精确度影响分析

    票价等级
    精度
    训练集中票价
    等级总数
    定价策略中出现
    票价等级总数
    收益平均提升率
    ALR@T(%)
    0.0001459012813.21
    0.01001201616.38
    下载: 导出CSV
  • SMITH B C, LEIMKUHLER J F, and DARROW R M. Yield management at American airlines[J]. Interfaces, 1992, 22(1): 8–31. doi: 10.1287/inte.22.1.8
    GALLEGO G and VAN RYZIN G. Optimal dynamic pricing of inventories with stochastic demand over finite horizons[J]. Management Science, 1994, 40(8): 999–1020. doi: 10.1287/mnsc.40.8.999
    OTERO D F and AKHAVAN-TABATABAEI R. A stochastic dynamic pricing model for the multiclass problems in the airline industry[J]. European Journal of Operational Research, 2015, 242(1): 188–200. doi: 10.1016/j.ejor.2014.09.038
    DELAHAYE T, ACUNA-AGOST R, BONDOUX N, et al. Data-driven models for itinerary preferences of air travelers and application for dynamic pricing optimization[J]. Journal of Revenue and Pricing Management, 2017, 16(6): 621–639. doi: 10.1057/s41272-017-0095-z
    高金敏, 乐美龙, 曲林迟, 等. 基于时变需求的机票动态定价研究[J]. 南京航空航天大学学报, 2018, 50(4): 570–576. doi: 10.16356/j.1005-2615.2018.04.020

    GAO Jinmin, LE Meilong, QU Linchi, et al. Dynamic pricing of air tickets based on time-varying demand[J]. Journal of Nanjing University of Aeronautics &Astronautics, 2018, 50(4): 570–576. doi: 10.16356/j.1005-2615.2018.04.020
    SELC̣UK A M and AVṢAR Z M. Dynamic pricing in airline revenue management[J]. Journal of Mathematical Analysis and Applications, 2019, 478(2): 1191–1217. doi: 10.1016/j.jmaa.2019.06.012
    LIN K Y and SIBDARI S Y. Dynamic price competition with discrete customer choices[J]. European Journal of Operational Research, 2009, 197(3): 969–980. doi: 10.1016/j.ejor.2007.12.040
    施飞, 陈森发. 随时间变化的机票折扣定价研究[J]. 交通运输系统工程与信息, 2010, 10(1): 112–116. doi: 10.3969/j.issn.1009-6744.2010.01.017

    SHI Fei and CHEN Senfa. Air ticket discount pricing based on time varying[J]. Journal of Transportation Systems Engineering and Information Technology, 2010, 10(1): 112–116. doi: 10.3969/j.issn.1009-6744.2010.01.017
    LEE J, LEE E and KIM J. Electric vehicle charging and discharging algorithm based on reinforcement learning with data-driven approach in dynamic pricing scheme[J]. Energies, 2020, 13(8): 1950. doi: 10.3390/en13081950
    CHENG Yin, ZOU Luobao, ZHUANG Zhiwei, et al. An extensible approach for real-time bidding with model-free reinforcement learning[J]. Neurocomputing, 2019, 360: 97–106. doi: 10.1016/j.neucom.2019.06.009
    陈前斌, 谭颀, 魏延南, 等. 异构云无线接入网架构下面向混合能源供应的动态资源分配及能源管理算法[J]. 电子与信息学报, 2020, 42(6): 1428–1435. doi: 10.11999/JEIT190499

    CHEN Qianbin, TAN Qi, WEI Yannan, et al. Dynamic resource allocation and energy management algorithm for hybrid energy supply in heterogeneous cloud radio access networks[J]. Journal of Electronics &Information Technology, 2020, 42(6): 1428–1435. doi: 10.11999/JEIT190499
    GOSAVII A, BANDLA N, and DAS T K. A reinforcement learning approach to a single leg airline revenue management problem with multiple fare classes and overbooking[J]. IIE Transactions, 2002, 34(9): 729–742. doi: 10.1080/07408170208928908
    SHIHAB S A M, LOGEMANN C, THOMAS D G, et al. Autonomous airline revenue management: A deep reinforcement learning approach to seat inventory control and overbooking[C]. The 36th International Conference on Machine Learning, Long Beach, USA, 2019: 132–139.
    QIU Qinfu and CHEN Xiong. Behaviour-driven dynamic pricing modelling via hidden Markov model[J]. International Journal of Bio-Inspired Computation, 2018, 11(1): 27–33. doi: 10.1504/IJBIC.2018.090071
    LAWHEAD R J and GOSAVI A. A bounded actor-critic reinforcement learning algorithm applied to airline revenue management[J]. Engineering Applications of Artificial Intelligence, 2019, 82: 252–262. doi: 10.1016/j.engappai.2019.04.008
    RAMASWAMY A and BHATNAGAR S. Stability of stochastic approximations with “controlled markov” noise and temporal difference learning[J]. IEEE Transactions on Automatic Control, 2019, 64(6): 2614–2620. doi: 10.1109/TAC.2018.2874687
  • 期刊类型引用(2)

    1. 王中华,杨永凯,田松. 民航旅客动态定价机制的分析. 民航学报. 2021(05): 85-89 . 百度学术
    2. 罗玲苑. 基于消费者细分视角下个性化定价反垄断规制路径. 价格理论与实践. 2021(10): 33-39 . 百度学术

    其他类型引用(10)

  • 加载中
图(3) / 表(4)
计量
  • 文章访问数:  2061
  • HTML全文浏览量:  871
  • PDF下载量:  170
  • 被引次数: 12
出版历程
  • 收稿日期:  2020-09-20
  • 修回日期:  2021-02-04
  • 网络出版日期:  2021-03-02
  • 刊出日期:  2021-04-20

目录

/

返回文章
返回