Traffic Flow Prediction Based on Hybrid Model of Auto-Regressive Integrated Moving Average and Genetic Particle Swarm Optimization Wavelet Neural Network
-
摘要: 针对短时交通流数据的非线性和随机性特点,为提高它的预测精度和收敛速度,该文从模型构建和算法两方面提出一种整合移动平均自回归(ARIMA)模型和遗传粒子群算法优化小波神经网络(GPSOWNN)相结合的预测模型和算法。在模型构建方面,将ARIMA模型预测值和灰色关联系数大于0.6的相关性强的前3个时刻的历史数据作为小波神经网络(WNN)的输入,在兼顾历史数据的平稳和非平稳的情况下,进行了模型结构简化。在算法方面,通过遗传粒子群算法对小波神经网络的参数初始值进行最优选取,可使其结果在不易陷入局部最优的条件下加快网络训练收敛速度。实验结果表明,在预测精度方面,该方法的模型明显优于整合移动平均自回归模型和遗传粒子群算法优化小波神经网络,在收敛速度方面,用遗传粒子群算法优化模型明显优于仅用遗传算法优化模型。
-
关键词:
- 短时交通流预测 /
- 灰色关联分析法 /
- 整合移动平均自回归 /
- 遗传粒子群优化小波神经网络
Abstract: In view of the nonlinear and stochastic characteristics of short-term traffic flow data, this article proposes a prediction model and algorithm based on hybrid Auto-Regressive Integrated Moving Average (ARIMA) and Genetic Particle Swarm Optimization Wavelet Neural Network (GPSOWNN) in order to improve its prediction accuracy and rate of convergence. In terms of model construction, the ARIMA model prediction value and the historical data of the first three moments with strong correlation with gray correlation coefficient greater than 0.6 are used as input of the Wavelet Neural Network(WNN), and the structure of the model is simplified considering both the stationary and non-stationary historical data. In terms of algorithm, by using the genetic particle swarm optimization algorithm to select optimally the initial values of the wavelet neural network, the results can speed up the convergence of network training under the condition that it is not easy to fall into local optimum. The experimental results show that the proposed model is superior to hybrid ARIMA and GPSOWNN in terms of prediction accuracy, the genetic particle swarm optimization algorithm is superior to the genetic algorithm optimization model in terms of convergence speed. -
1. 引言
短时交通流预测的实时性和准确性决定了交通流的控制精度和诱导效果,其研究成为交通领域研究的重要内容之一[1,2]。短时交通流预测方法大致分为基于数理统计方法和基于智能算法方法[3,4]。其中数理统计方法包括基于整合移动平均自回归(ARIMA)模型等,这种方法模型简单,但所需数据量大且预测精度差。智能算法方法包括人工神经网络(Artificial Neural Network, ANN)等,这种方法预测精度较好,但易出现过拟合和收敛速度慢。近年来对两种方法进行组合的研究越来越流行,李松等人[5]采用遗传算法优化BP神经网络的方法来预测短时交通流,该方法克服了易陷入局部最优等缺陷,但会增加其预测时间。谭满春等人[6]采用ARIMA模型对短时交通流时间序列线性部分进行预测,用人工神经网络对其非线性残差部分进行预测,但其方法依然是ARIMA模型作为主要的预测模型,神经网络仅仅用于修正预测误差。从而当交通流发生急剧振荡时会严重影响模型预测性能。
综上所述,仅用某一种模型进行预测,很难进一步提高短时交通流预测的准确性。为突出平稳段和非平稳段相结合的预测优势,本文尝试在灰色关联分析法进行对遗传粒子群优化小波神经网络(Genetic Particle Swarm Optimization Wavelet Neural Network, GPSOWNN)输入结构简化的基础上,增加了ARIMA模型预测值输入的组合形式。该方法克服了平稳段与非平稳段的预测数据在单一预测模型的预测精度的局限性,并且增加遗传粒子群算法进行优化,以达到加快网络训练收敛速度和使其结果不易陷入局部最优的效果,最终实现对短时交通流预测性能的改善。
2. ARIMA-GPSOWNN模型相关理论
2.1 ARIMA模型原理
自回归移动平均模型的基本模型是ARMA(
p ,q ),其表达式为Yt=φ1Yt−1+φ2Yt−2+···+φpYt−p+εt−θ1εt−1−θ2εt−2−···−θqεt−q (1) 其中,
Yt 为预测的时间序列,φ 为AR模型参数,θ 为MA模型参数,ε 为零均值白噪声,p 为自回归项,q 为移动平均项数,t 是时间索引。其模型针对的是平稳时间序列,而差分自回归滑动平均模型(ARIMA)是在ARMA模型基础上加了差分变换[7–9]。差分变换能使非平稳时间序列平稳化,所以ARIMA模型也可以用于非平稳时间序列,它的模型一般简化为ARIMA(p ,d ,q ),其表达式为φp(B)(1−B)dYt=θq(B)εt (2) 其中,
B 是后移算子,BYt=Yt−1 ,d 是差分次数。2.2 遗传粒子群算法原理
遗传算法是模拟优胜劣汰法则和生物进化过程的优化搜索算法,它将输入参数进行编码,再通过交叉、变异等运算改变编码参数信息,然后计算适应度来筛选出优良的参数[10]。粒子群算法是通过对鸟类群体的行为规律进行总结提出的,它是通过跟随单个粒子和粒子群极值来完成极值寻优[11]。遗传粒子群算法继承了粒子群算法的编码方式,并应用了遗传算法中通过交叉、变异等运算寻找最优解的方式,从而能够结合两种算法快速收敛和全局寻优的优点。
2.3 小波神经网络原理
小波神经网络的结构与BP神经网络相似,不同点是小波神经网络的激活函数选用的是Morlet小波基函数[12,13]。小波神经网络的基函数是根据小波理论确定的,从而避免了结构设计的盲目性,小波神经网络结合了小波变换的时域局部特性和神经网络的自学习、鲁棒性、自适应的优势。小波神经网络预测步骤如下:
步骤 1 初始化小波平移因子
bj ,伸缩因子aj ,连接权值和阈值wij 等参数。步骤 2 将样本分为训练样本和测试样本,根据训练样本计算隐含层输出和输出层输出。小波神经网络隐含层输出公式为
hj=Mj(k∑i=1wijxi−bjaj),j=1,2,···,l (3) 其中,
hj 为隐含层第j 个节点的输出,Mj 为小波基函数,wij 为输出层和隐含层的连接权值,bj 为小波基函数的平移因子,aj 为小波基函数的伸缩因子,l 为隐含层节点数。步骤 3 计算预测输出和测试样本的误差。
步骤 4 根据步骤3计算出的误差调整小波神经网络的权值和阈值,判断误差是否小于可接受最大误差或者迭代次数是否大于最大迭代次数,如果是则输出预测值,否则转到步骤3。
3. ARIMA-GPSOWNN模型构建和算法
3.1 时间序列数据集
本文的实验数据提取于纽约Huguenot Ave 2013年的2月2日~2月8日之间300个数据样本,每个数据样本之间相隔15 min。针对这些数据,设实时交通流数据的表达式为
X(t)={x(t),x(t−1),···,x(t−p)} ,其中X(t) 为实时时刻后连续p 个时刻的交通流数据,历史交通流数据为X(t−1)={x(t−1),x(t−2), ···,x(t−p−1)},X(t−2)={x(t−2),x(t−3),··· ,x(t−p−2)},···,X(t−n)={x(t−n),x(t−n−2) ,···,x(t−p−n)} ,其中X(t−n) 为实时时刻前第n 时刻后连续p 个时刻的交通流数据。3.2 ARIMA模型构建
3.2.1 模型选择
构建ARIMA模型最主要的工作是确定ARIMA模型中参数
p ,d ,q 的值。首先确定差分次数d 的值,通过单位根检验对交通流数据样本进行平稳性检验,对于非平稳时间序列反复进行差分处理,直到修正后的时间序列平稳化为止。由3.1节提取的交通流时间序列通过1次差分处理即能平稳,从而该模型差分系数d 为1。然后确定自回归项p 和移动平均项q 的值,首先观察自相关图和偏相关图来确定p ,q 的可能值。图1为自相关图,可以观察到自相关在滞后lag=1时拖尾,从而p 值的可能值为1或2。图2为偏自相关图,可以观察到偏自相关在滞后lag=2时拖尾,从而q 值的可能值为2或3。然后用赤池信息量准则(Akaike Information Criterion, AIC)对p ,q 进行最佳估计,AIC值可以反映数据拟合程度,AIC值越小拟合越优良。将交通流数据代入到ARIMA(1,1,2), ARIMA(2,1,2), ARIMA(1,1,3), ARIMA(2,1,3)4种模型并分别计算AIC值,结果如表1, ARIMA(1,1,2)模型的AIC值最小,从而可断定该交通流序列最适合ARIMA(1,1,2)模型。选用前250个数据样本作为训练样本,用来预测后面50个数据样本。训练过程为用最小二乘法估计模型的参数,拟合结果如图3。在3.2.2节进一步对模型的好坏进行检验。表 1 4组模型的AIC值模型 AIC值 ARIMA(1, 1, 2) 7.210306 ARIMA(2, 1, 2) 7.426953 ARIMA(1, 1, 3) 7.250197 ARIMA(2, 1, 3) 7.509981 3.2.2 模型检验
交通流数据的变化率越大则其变化更剧烈,由图4可知,如24~25, 26~27以及47~48的交通流时间序列段,其交通流实际值的斜率变化都非常大,这些序列段的交通流数据变化较其他序列段更剧烈,而由图5可知,上述序列段与其他序列段相比误差绝对值更大,可以判断ARIMA模型对剧烈变化的时间序列预测效果差,从而仅用ARIMA模型并不能达到很好的预测效果,在3.3节中会将ARIMA模型和GPSOWNN模型进行结合。
3.3 GPSOWNN模型构建
构建神经网络模型应首先确定模型的输入和输出,以及隐含层节点数。本文模型的输入是由ARIMA模型预测值和预测时刻的历史数据组成,为了排除相关性小的历史数据以提升模型的预测速度,先通过灰色关联分析法计算预测时刻与历史时刻的灰色关联系数。灰色关联分析法是作为衡量序列间关联程度的一种方法,灰色关联系数越大则相关性越大[14]。最后筛选出关联系数大的历史数据。
算法1 灰色关联分析法
步骤 1 求各交通流时间序列的初值像,计算式子如式(4)
X′k−i=Xk−i/xk−i(1)=(x′k−i(1),x′k−i(2),···,x′k−i(j)),i=1,2,···,n;j=1,2,···,m (4) 其中,
x′k−i 为前第i 个历史时刻的交通流时间序列的初值像,Xk−i 为前第i 个历史时刻的交通流时间序列,x′k−i(j) 为前第i 个历史时刻的交通流时间序列的初值像的第j 数据。步骤 2 对各历史时刻的交通流时间序列的初值像进行求差运算,计算式子如式(5)
Δi(j)=|xk′(j)−xk−i′(j)|,j=1,2,···,m (5) 其中,
xk′(j) 为预测时刻的交通流时间序列的初值像的第j 数据,Δi(j) 为前第i 个历史时刻的交通流时间序列的初值像与预测时刻的交通流时间序列的初值像的差的绝对值。步骤 3 找出步骤2求得的求差序列中的最大值与最小值,计算式子如式(6)和式(7)
M=max (6) 其中,
M 为求差序列的最大值。m = \mathop {\min }\limits_i \mathop {\min }\limits_j {\Delta _i}(j) (7) 其中,
m 为求差序列的最小值。步骤 4 计算每个历史时刻的交通流时间序列中的每个数据与对应的预测时刻的交通流时间序列数据的灰色关联系数,计算式如式(8)
{\gamma _i}(j) = \frac{{m + \xi M}}{{{\Delta _i}(j) + \xi M}},j = 1,2, ·\!·\!·,m;\xi \in (0,1) (8) 其中,
{\gamma _i}(j) 为前第i 个历史时刻的交通流时间序列的第j 数据与预测时刻的交通流时间序列的第j 数据的灰色关联系数,\xi 为常数通常为0.5。步骤 5 得到每个历史时刻的交通流时间序列与预测时刻的交通流时间序列的灰色关联系数为
{\gamma _i} = \frac{1}{m}\sum\limits_{j = 1}^m {{\gamma _i}(j),i = 1,2,·\!·\!·,n} (9) 其中,
{\gamma _i} 为前第i 个历史时刻的交通流时间序列与预测时刻的交通流时间序列的灰色关联系数。步骤 6 输出实时时刻与各历史时刻的灰色关联系数。
将预测时刻与前7个历史时刻的交通流时间序列(每个序列100个数据)用灰色关联分析法进行计算。计算结果为表2。
表 2 实时时刻与历史时刻的灰色关联系数交通流历史时刻时间
序列{x_{k - i}} (i=1, 2, ···, 7)与{x_k}的灰色关联系数 {x_{k - 1}} 0.8271 {x_{k - 2}} 0.8155 {x_{k - 3}} 0.6546 {x_{k - 4}} 0.5346 {x_{k - 5}} 0.5146 {x_{k - 6}} 0.5126 {x_{k - 7}} 0.5453 当两个时间序列的灰色关联系数大于0.6时,可认为它们之间有很强的相关性,由表2可知只有前3个时刻与实时时刻的相关性强,从而将预测时刻的前3个时刻的时间序列和用ARIMA模型算出的实时数据预测值作为GPSOWNN模型的4个输入,模型输出为预测时刻交通流值。现有能确定神经网络隐含层节点数的方法只有经验法,本文采用的是一个经验公式确定隐含层节点数,如式(10)
h = \sqrt {m + n} + \alpha (10) 其中,
h 为隐含层节点数目,m 为输入层节点数目,n 为输出层节点数目,\alpha 为10以内的常数。通过修改\alpha 的值,反复试凑选取最优值,当隐含层节点数为6时预测效果最好。具体的结构图如图6。图6中,
{w_{ij}} 和{w_{jk}} 分别是输入层到隐含层和隐含层到输出层的连接权值。其初始值都是由遗传粒子群算法计算得到。3.4 ARIMA-GPSOWNN算法
ARIMA-GPSOWNN算法是利用遗传粒子群算法、灰色关联分析法对ARIMA和小波神经网络组合模型进行优化的算法,其结合了遗传粒子群算法加快模型网络的收敛速度的优势以及灰色关联分析法减少干扰项对预测性能的影响的优点,最终达到优化预测模型效果。
算法2 ARIMA-GPSOWNN算法
步骤 1 选取构建好的交通流时间序列的前250个数据作为ARIMA模型的训练样本;
步骤 2 对训练样本进行归一化处理,将数据值投射到[0, 1]区间;
步骤 3 将步骤2中处理后的数据输入到3.2节已构建好的ARIMA(1, 1, 2)模型中;
步骤 4 利用ARIMA模型进行预测,得到ARIMA模型预测交通流数据集;
步骤 5 对步骤4中的预测结果进行反归一化处理,将其作为ARIMA模型预测序列;
步骤 6 调用算法1得到的与实时时间序列相关性强的历史时间序列与步骤5中的ARIMA模型预测序列作为GPSOWNN网络的输入;
步骤 7 利用遗传粒子群算法对小波神经网络的伸缩因子、平移因子、连接权值和阈值的初始值进行最优选取;
步骤 8 计算隐含层输出和输出层输出,利用误差的反向传播调整小波神经网络的参数,目的是使误差函数达到最小值。为了加速算法的收敛速度,采用熵函数作为误差函数,它与2次误差函数相比,能够提高神经网络的收敛速度,当误差相同时,与2次误差函数相比,熵函数调节的梯度更大,从而使权重w调整的更快,最终使训练速度更快。具体公式如式(11)
e = - \sum\limits_{k = 1}^m {\left| {{y_n}(k)\ln y(k) + \left( {1 - {y_n}(k)} \right)\ln \left( {1 - y(k)} \right)} \right|} (11)
其中,
{y_n}(k) 为期望输出,y(k) 为实际输出;步骤 9 判断误差是否小于可接受最大误差以及迭代次数是否达到最大值。如果是则保存调整好的小波神经网络参数,并输出实时交通流预测值。否则转到步骤8。
4. 实验结果与分析
4.1 评判标准
本文以标准偏差为评判模型预测精度好坏的标准,标准偏差公式为
\sigma = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_{\rm r}}(i) - x(i)} \right)}^2}} } (12) 其中,
\sigma 为标准偏差,n 为交通流数据的个数,{x_{\rm r}} 为实际交通流数据,x 为预测交通流数据。4.2 实验对比及分析
一个模型预测性能的好坏可以由该模型的收敛速度和预测精度反映出来。取一组交通流数据样本输入到GWNN和GPSOWNN模型中,分别画出两个模型的进化过程,通过图7和图8可得GWNN需要在迭代6次后才能找到全局最优解,而GPSOWNN只需迭代4次就可以找到全局最优解,显然使用遗传粒子群算法优化后的小波神经网络的收敛速度更快,从而GPSOWNN模型的预测性能要优于GWNN模型。
为了比较ARIMA模型与GPSOWNN模型以及其组合模型的预测精度,分别用ARIMA模型和GPSOWNN组合模型、ARIMA模型、WNN模型对交通流进行预测,并画出预测样本的预测图和偏差图。
由图9和图10可知当在比较平稳的时间段,如交通流时序数据在5~10段或35~40段,ARIMA模型的预测精度明显比GPSOWNN模型更精准,而在数据急剧变化时,如交通流时序数据在25~30段或45~50段,GPSOWNN模型的预测精度明显比ARIMA模型更精准,而其组合模型综合了两者的优点。由表3可得ARIMA模型预测精度最粗略,GPSOWNN模型预测精度其次,两者组合模型预测精度最精准,其相对于ARIMA模型和GPSOWNN模型总标准误差分别降低了35.8%和20.3%。综上所述,ARIMA和GPSOWNN组合模型的预测性能比其单个模型更好。
表 3 3种模型的总标准误差模型 总标准误差 GPSOWNN和ARIMA组合模型 294.5303 GPSOWNN模型 369.7026 ARIMA模型 459.0784 5. 结束语
本文根据短时交通流量的实时数据,从预测模型的简化和算法优化两方面,提出一种ARIMA与GPSOWNN组合模型对其进行预测。通过仿真结果可知,其预测性能明显优于ARIMA模型和GPSOWNN模型,在一定程度上提高了短时交通流预测性能。这种组合模型的方式为交通流预测的研究提供了新思路。但本文并没有分析天气以及其他路口对本路段交通流的影响,因此对这类问题的研究将是下一步的研究内容。
-
表 1 4组模型的AIC值
模型 AIC值 ARIMA(1, 1, 2) 7.210306 ARIMA(2, 1, 2) 7.426953 ARIMA(1, 1, 3) 7.250197 ARIMA(2, 1, 3) 7.509981 表 2 实时时刻与历史时刻的灰色关联系数
交通流历史时刻时间
序列{x_{k - i}} (i=1, 2, ···, 7)与{x_k}的灰色关联系数 {x_{k - 1}} 0.8271 {x_{k - 2}} 0.8155 {x_{k - 3}} 0.6546 {x_{k - 4}} 0.5346 {x_{k - 5}} 0.5146 {x_{k - 6}} 0.5126 {x_{k - 7}} 0.5453 表 3 3种模型的总标准误差
模型 总标准误差 GPSOWNN和ARIMA组合模型 294.5303 GPSOWNN模型 369.7026 ARIMA模型 459.0784 -
DARAGHMI Y A, YI C W, and CHIANG T C. Negative binomial additive models for short-term traffic flow forecasting in urban areas[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 784–793. doi: 10.1109/TITS.2013.2287512 《中国公路学报》编辑部. 中国交通工程学术研究综述·2016[J]. 中国公路学报, 2016, 29(6): 1–161. doi: 10.19721/j.cnki.1001-7372.2016.06.001Editorial Department of China Journal of Highway and Transport. Review on China’s traffic engineering research progress·2016[J]. China Journal of Highway and Transport, 2016, 29(6): 1–161. doi: 10.19721/j.cnki.1001-7372.2016.06.001 TSELENTIS D I, VLAHOGIANNI E I, and KARLAFTIS M G. Improving short-term traffic forecasts: to combine models or not to combine?[J]. IET Intelligent Transport Systems, 2014, 9(2): 193–201. doi: 10.1049/iet-its.2013.0191 LIPPI M, BERTINI M, and FRASCONI P. Short-term traffic flow forecasting: An experimental comparison of time-series analysis and supervised learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(2): 871–882. doi: 10.1109/TITS.2013.2247040 李松, 刘力军, 解永乐. 遗传算法优化BP神经网络的短时交通流混沌预测[J]. 控制与决策, 2011, 26(10): 1581–1585. doi: 10.13195/j.cd.2011.10.144.lis.006LI Song, LIU Lijun, and XIE Yongle. Chaotic prediction for short-term traffic flow of optimized BP neural network based on genetic algorithm[J]. Control and Decision, 2011, 26(10): 1581–1585. doi: 10.13195/j.cd.2011.10.144.lis.006 谭满春, 冯荦斌, 徐建闽. 基于ARIMA与人工神经网络组合模型的交通流预测[J]. 中国公路学报, 2007, 20(4): 118–121. doi: 10.3321/j.issn:1001-7372.2007.04.021TAN Manchun, FENG Luobin, and XU Jianmin. Traffic flow prediction based on hybrid ARIMA and ANN model[J]. China Journal of Highway and Transport, 2007, 20(4): 118–121. doi: 10.3321/j.issn:1001-7372.2007.04.021 崔青华, 夏井新. 基于ARIMA-GARCH模型的城市主干道行程时间时变置信区间预测[J]. 东南大学学报 (英文版), 2014, 30(3): 358–362. doi: 10.3969/j.issn.1003-7985.2014.03.019CUI Qinghua and XIA Jinxin. Time-varying confidence interval forecasting of travel time for urban arterials using ARIMA-GARCH model[J]. Journal of Southeast University (English Edition) , 2014, 30(3): 358–362. doi: 10.3969/j.issn.1003-7985.2014.03.019 STOEAN R, STOEAN C, and SANDITA A. Evolutionary regressor selection in ARIMA model for stock price time s-eries forecasting[C]. International Conference on Intelligent Decision Technologies, Sorrento, Italy, 2017: 117–126. PAVLYUK D. Short-term traffic forecasting using multivariate autoregressive models[C]. Procedia Engineering, Riga, Latvia, 2017: 57–66. LUO Xianglong, NIU Liyao, and ZHANG Shengrui. An algorithm for traffic flow prediction based on improved SARIMA and GA[J]. KSCE Journal of Civil Engineering, 2018, 22(10): 4107–4115. doi: 10.1007/s12205-018-0429-4 HU Wenbin, YAN Liping, LIU Kaizeng, et al. A short-term traffic flow forecasting method based on the hybrid PSO-SVR[J]. Neural Processing Letters, 2016, 43(1): 155–172. doi: 10.1007/s11063-015-9409-6 ZHANG Hong, WANG Xiaoming, Cao Jie, et al. A multivariate short-term traffic flow forecasting method based on wavelet analysis and seasonal time series[J]. Applied Intelligence, 2018, 48(10): 3827–3838. doi: 10.1007/s10489-018-1181-7 HANG Yang, ZOU Yajie, WANG Zhouyu, et al. A hybrid method for short-term freeway travel time prediction based on wavelet neural network and markov chain[J]. Canadian Journ-al of Civil Engineering, 2018, 45(2): 77–86. doi: 10.1139/cjce-2017-0231 刘思峰, 蔡华, 杨英杰, 等. 灰色关联分析模型研究进展[J]. 系统工程理论与实践, 2013, 33(8): 2041–2046. doi: 10.3969/j.issn.1000-6788.2013.08.018LIU Sifeng, CAI Hua, YANG Yingjie, et al. Advance in grey incidence analysis modelling[J]. Systems Engineering Theory and Practice, 2013, 33(8): 2041–2046. doi: 10.3969/j.issn.1000-6788.2013.08.018 -