Citation: | SUN Qiang, ZHAO Ke. Multi-Scale Attention Recurrent Network with Multi-order Taylor Differential Knowledge for Deep Spatiotemporal Sequence Prediction[J]. Journal of Electronics & Information Technology, 2024, 46(6): 2605-2618. doi: 10.11999/JEIT231108 |
时空序列涵盖了时间和空间两个维度,包括预测对象的运动信息、图像的像素布局以及序列的时序关联[1]。时空序列预测的目标是捕捉时间和空间上的数据变化趋势[2],在智慧交通、灾害预警、降水预测等领域具有重大的影响和应用价值,为个人、城市和国家的决策提供了有力支持[3]。
作为统计建模工具,深度学习在各个领域中得到了广泛应用,在时空序列预测领域中也发挥着重要作用[4]。以卷积长短期记忆网络(Convolutional Long Short Term Memory, ConvLSTM)为例,Shi等人[5]首次引入卷积运算替代了长短期记忆网络(Long Short Term Memory, LSTM)中的矩阵乘法,提出了一种新的编码-预测结构。随后,Shi等人[6]进一步提出了轨迹门控递归单元(Trajectory Gated Recurrent Unit, TrajectoryGRU),通过在编码-预测结构中增加上采样和下采样操作,成功地捕获了空间位置的连接结构。此外,Lin等人[7]将自注意力记忆模块嵌入到ConvLSTM中以捕获长期空间依赖性,最终得到具有全局时空感受域的自注意力卷积长短期记忆网络(Self-Attention ConvLSTM, SA-ConvLSTM)。Su等人[8]提出了一种高阶序列分解模型,将卷积核联合近似为低秩张量序列,并通过因子分解降低了模型的复杂性。然而,需要注意的是,这种堆叠方式的预测距离较短,在处理长距离预测时会存在信息丢失问题。
此外,一些研究工作致力于改进循环网络中的门控机制和堆叠方式。以Wang等人[9]提出的预测式循环神经网络(Predictive Recurrent Neural Network, PredRNN)为例,该模型提出了时空长短期记忆单元(SpatioTemporal Long Short Term Memory, ST-LSTM)和新的堆叠方式,以缓解长时状态之间的信息丢失问题。接着,Wang等人[10]进一步提出了PredRNN++模型,该模型采用更深层次的递归级联输出,获得了更强大的建模能力,在一定程度上缓解了梯度消失问题。Wu等人[11]提出了运动门控递归单元(Motion Gated Recurrent Unit, MotionGRU),将其与RNN相结合,能够同时捕获瞬时运动和运动变化趋势。此外,Wang等人[12]提出的嵌套记忆单元(Memory In Memory, MIM)改进了ST-LSTM中的遗忘门,自适应地学习到新的数据特征。这些研究方法虽然在一定程度上缓解了梯度消失问题,但是深度堆叠的网络在每一层堆叠时可能导致时空信息的部分丢失。而且,由于对循环单元内部门控机制改进时采用了相同的卷积核尺寸,因此无法有效区分多种空间尺度的时空特征,也难以捕获边缘相关时空特征。
尽管基于数据驱动的方法在一定程度上缓解了梯度消失问题,但它们仍然存在数据稀缺、复杂场景下准确性低和鲁棒性不足等挑战性问题[13]。近年来,一些研究者发现偏微分方程能够通过未知的时间和空间导数项有效捕获相邻的时空依赖关系[14],并且能更精准地建模时空序列的数据行为,显著地提高时空序列预测的计算效率和准确率[15]。例如,Long等人[16]提出了偏微分方程网络(Partial Differential Equation Network, PDE-Net),该模型使用了卷积核近似偏微分方程,将不同阶数的空间导数整合到神经网络中。在此基础上,Le Guen等人[17]提出了物理动力学网络(Physical Dynamics Network, PhyDNet),该网络采用了双分支结构,同时使用数据驱动和知识引导实现时空预测。另外,Hsieh等人[18]结合了概率模型和神经网络,能够自动分解高维信息,更准确地预测出每个模块的低维时间动态。Finn等人[19]提出了一种通过卷积预测多个离散分布的方法,其中每个离散分布通过绑定权重应用于整个图像,并通过期望值完成时空预测。Ren等人[20]使用卷积算子求解偏微分方程,并且使用自回归过程递归地控制输出的误差传播过程。此外,Bézenac等人[21]结合微分和常微分的变换关系,通过卷积和反卷积网络对数据进行了平流和扩散的预测,而Kalchbrenner等人[22]提出了视频像素网络(Video Pixel Networks, VPN),引入了独立假设估计视频的离散联合分布,以反映不同的视频张量结构。这些研究工作都是基于卷积和微分之间的关系设计卷积核,但不同类型的偏微分方程对时空预测的效果有着不同的影响,这限制了偏微分方程在实际应用中的通用性;其次,使用相同的方法设计卷积核处理高阶微分项时会导致微分项的近似精度降低,从而会产生预测误差。
针对上述问题,本文提出一种融合泰勒微分的卷积循环神经网络(Taylor Differential Incorporated Convolutional Recurrent Neural Network, TDI-CRNN)。主要贡献如下:
(1)设计了一个多阶泰勒近似物理模块,使用泰勒展开式近似时空序列图像的微分阶数,然后耦合不同微分阶数的微分卷积核,最后动态调整泰勒展开的截断阶数以及微分项数。这样不仅提高了高阶微分的近似精度,还缓解了偏微分方程在应用中的局限性。
(2)设计了一个多尺度注意力循环模块(Multi-Scale Attention Recurrent Module, MSARM)。首先,对ST-LSTM的长期记忆状态和短期记忆状态进行像素级融合,然后将融合结果与提出的多尺度卷积空间注意力UNet模块 (Multi-scale Convolution Spatial Attention UNet, MCSA-UNet)进行级联。MCSA-UNet使用多尺度卷积和空间注意力机制取代了UNet中的卷积层,得到多种空间尺度的时空特征以及边缘相关时空特征,更好地捕获了每个特定对象的运动趋势。
(3)在Moving MNIST数据集[23]、KTH数据集[24]和CIKM雷达回波数据集[25]上展开大量实验,并通过可视化以及定量结果验证了模型的有效性。
本文其余内容安排如下:第2节详细描述了本文的研究基础;第3节详细描述了所提出的模型架构;在第4节,通过3个不同的数据集展开了大量实验,通过最终的可视化和定量结果验证了提出方法的合理性和有效性;在第5节,总结了本文工作,并强调了本文研究的贡献以及未来可能的研究方向。
ST-LSTM单元是在ConvLSTM的基础上产生的变体,图1为该单元的结构示意图,其中l表示当前项作用于网络的第l层。ConvLSTM采用了编码-预测堆叠方式,在这种堆叠方式中,层与层之间的记忆单元是相互独立的,部分空间信息沿垂直方向向上传递。随着循环单元的堆叠,网络的空间特征逐渐变得抽象化。每层堆叠单元经过信息提取,提取到的抽象信息需要传递给下一个时刻的底层输入,而网络顶层单元的预测值依赖于不同层之间的时空特征。然而,ConvLSTM的底层单元忽略了上一时刻的顶层信息,导致在长距离的时空信息传递中容易出现梯度消失问题。
ST-LSTM单元采用了与ConvLSTM不同的堆叠方式,ST-LSTM通过折线连接将上一时刻的顶层信息流入当前时刻的底层信息中,其底层细节不仅依赖于当前时刻的记忆状态,还依赖于历史时刻的时空特征。此外,ST-LSTM单元引入了一种新的记忆状态转移方式。在该方式中,模型不再仅仅沿时间方向更新记忆状态,而是引入了纵向的记忆状态,有效地缓解了空间特征在网络各层之间的梯度消失问题。因此,模型最终的输出能够更广泛地考虑到层次化的时空特征。
从图1可以看出,ST-LSTM单元将两个形式上完全一样的LSTM单元级联在一起,上半部分与普通的LSTM没有任何区别,下半部分将长期记忆状态$ {{\boldsymbol{C}}_t} $和隐藏状态${{\boldsymbol H}_t}$一起更改为时空记忆状态${{\boldsymbol M}_t}$。然后,时空记忆状态${{\boldsymbol M}_t}$通过折线连接将上一时刻的顶层信息注入到当前时刻的底层信息中,使得时空信息可以同时在水平方向和垂直方向上传递。同样地,每个循环单元的隐藏状态${{\boldsymbol H}_t}$是由横向和纵向连接获得记忆状态的非线性组合决定的,使得隐藏状态${{\boldsymbol H}_t}$具有与记忆状态相同的维度。此外,ST-LSTM单元使用了一个来自两个方向的共享输出门,进一步融合了双记忆状态,提高了时空记忆融合的效率,更好地协调了短期记忆和长期记忆之间的信息流。
图2为TDI-CRNN模型架构,该模型包括数据驱动和知识引导两个核心部分。在数据驱动部分,设计了MSARM模块,能够获取多种空间尺度的时空特征并定位到重要区域的位置信息,有助于帮助网络捕捉更大范围的上下文信息。在知识引导部分,设计了多阶泰勒近似物理模块,此模块能够动态调整泰勒展开的截断阶数以及微分项数,提高微分过程的近似精度。
如图2所示,TDI-CRNN模型的数据驱动部分堆叠了4层MSARM模块。MSARM模块使用长期记忆状态${\hat{\boldsymbol{C}}_t}$和短期记忆状态${\hat{\boldsymbol{H}}_t}$在横向和纵向逐层编码时空特征。TDI-CRNN模型将最后一层MSARM模块的短期记忆状态${\hat{\boldsymbol{H}}_t}$作为数据驱动的输出结果。由于每一层MSARM模块都会进行信息提取,每层提取的抽象信息都不同。因此,本文将前3层MSARM模块得到的短期记忆状态${\hat{\boldsymbol{H}}_t}$相加,将其送入多阶泰勒近似物理模块,得到知识引导的输出结果。最终,将数据驱动和知识引导的输出结果相加,得到增强后的预测结果。TDI-CRNN模型根据知识引导挖掘数据中潜在的物理规律,并使用数据驱动捕捉时空动力系统的复杂变化特性,进而提高了预测结果的准确性。
图3为MSARM模块结构示意图,该模块由ST-LSTM和MCSA-UNet两部分组成。首先,ST-LSTM单元将两个形式上完全一样的LSTM单元级联在一起,通过引入新的时空记忆状态$ {{\boldsymbol M}_t} $,代替了ST-LSTM单元中第2个LSTM单元的短期记忆状态$ {{\boldsymbol H}_t} $和长期记忆状态$ {{\boldsymbol{C}}_t} $,从而更好地协调了短期记忆状态和长期记忆状态之间的信息流。同时,ST-LSTM单元使用了共享权重的输出门,实现了无缝的记忆融合。因此,MSARM模块使得信息流能够在短期记忆状态和长期记忆状态之间更高效地流动。其次,MSARM模块将长期记忆状态$ {{\boldsymbol{C}}_t} $和短期记忆状态$ {{\boldsymbol H}_t} $以像素加和的方式融合,使得每个维度都能获取更多的时空特征。最后,将融合得到的结果输入到MCSA-UNet模块中,在经过编码和解码部分后,得到更新后的短期记忆状态${\hat{\boldsymbol{H}}_t}$和长期记忆状态${\hat{\boldsymbol{C}}_t}$。
图4为MCSA-UNet模块结构示意图。其中,多尺度卷积中的$ H $和$ W $分别表示特征图的高度和宽度,$ C $表示特征通道数,$ {\mathrm{MC}} $表示中间通道数,$ \sigma $表示Sigmoid激活函数。MCSA-UNet采用了编码器-解码器架构。其中,编码器由多尺度卷积,下采样和空间注意力机制3个部分组成;解码器由双线性上采样操作,跳跃连接和$ 1 \times 1 $卷积3个部分组成。
在编码器中,使用多尺度卷积捕获多种空间尺度的时空特征,使得网络能够同时考虑由不同卷积核获得的信息,提供多层次的特征表示。同时,UNet架构使用卷积和跳跃连接获取不同的特征表示。因此,引入多尺度卷积到UNet架构的卷积层中,不仅能够将历史时刻的时空信息进行特征表示,还提高了网络对不同尺寸目标的特征学习能力。具体而言,多尺度特征提取首先使用${\text{1}} \times {\text{1}}$卷积将$ C $个特征通道数调整为$ {\mathrm{MC}} $;然后,采用不同大小的卷积核(${\text{3}} \times {\text{3}}$, ${\text{5}} \times {\text{5}}$, ${\text{7}} \times {\text{7}}$)进行分组卷积操作,并使用填充策略保持输出特征图的大小与输入特征图的大小一致,以确保不同尺寸的卷积核提取的特征能够在通道维度上进行拼接;接着,对产生的特征图进行通道拼接,得到特征通道数为$ {\text{3}}{\mathrm{MC}} $;最后,使用${\text{1}} \times {\text{1}}$卷积操作将特征通道数增加到$ {\text{2}}C $。
此外,为了让时空预测过程中的空间特征具有长程依赖性,引入空间注意力机制(Spatial Attention Mechanisms, SAM)对多尺度卷积得到的特征图进行处理,从而聚焦于特定区域的显著特征。这样,通过引入空间注意力机制捕获了空间和时间上具有长期依赖性的特征,在更长的时间跨度上有效地捕获时空信息,提供更强大的时空建模能力。具体而言,SAM对输入的特征图进行最大池化和平均池化(在通道维度上池化,以减少通道数,便于学习后面的空间特征)操作;然后,将最大池化和平均池化的结果沿着通道维度进行拼接;接着,对拼接的结果进行${\text{1}} \times {\text{1}}$卷积操作,得到与原始输入尺寸和通道数相同的加权特征图;最终,在下采样部分通过最大池化操作使特征图尺寸减半,而通道数保持不变。
编码器使用不同的卷积核捕获多种空间尺度,以促进多尺度语义信息的表达,进而捕获图像的边缘相关特征和深层语义信息。当提取的特征经过空间注意力机制时,编码器能够关注到长期的空间依赖性,从而捕获到更深层次的时空特征。MCSA-UNet模块中通过使用多尺度卷积和空间注意力机制,将注意力集中在时空数据中的特定局部区域,目的是更好地捕获每个特定对象的运动趋势。
在解码器中,首先使用双线性上采样操作将特征图的大小扩大1倍,其次将空间注意力机制生成的加权特征图与上采样得到的特征图进行通道拼接。跳跃连接的目的是将多尺度特征连接到输出,以增强空间特征的表达能力。接着,使用${\text{1}} \times {\text{1}}$卷积调整输出通道数,使其与原始通道数相匹配。最后,根据式(1)和式(2)得到更新后的${\hat{\boldsymbol{C}}_t}$和${\hat{\boldsymbol{H}}_t}$。
$$ {\hat{\boldsymbol{C}}_t} = {{\boldsymbol{C}}_t} \otimes ({\mathrm{MCSA}} {\text{-}} {\mathrm{UNet}}({{\boldsymbol H}_t} + {\boldsymbol{C}}_t)) $$ | (1) |
$$ {\hat{\boldsymbol{H}}_t} = \sigma ({\mathrm{MCSA}} {\text{-}} {\mathrm{UNet}}({{\boldsymbol H}_t} + {\boldsymbol{C}}{}_t)) \otimes {\mathrm{Tanh}}({\hat{\boldsymbol{C}}_t}) $$ | (2) |
图5为多阶泰勒近似物理模块的结构示意图。首先,对整个输入进行微分时,将空间变量用$ U $($ U $的大小表示为$X \times Y$)表示并将$ U $划分为$M \times N$个小的矩形区域,得到$i$行和$j$列的子区域$ {U_{ij}} $。其中,每个子区域表示为${x_i} = i \cdot ({X}/{M}), i = 0,1, \cdots,M$, ${y_i} = j \cdot ({Y}/{N}),j = 0,1, \cdots,N$。在每个子区域内,将输入进行多个阶数的微分,每一个阶数的微分过程为
$$ \frac{{\partial {U_{ij}}(x,y,t)}}{{\partial x}} = \Delta {U_{ij}}(x,y,t) + o({U_{ij}}(x,y,t)) $$ | (3) |
其中,$o$表示无限可微的函数,$ \Delta {U_{ij}} $表示中心点的微分过程。此时,在子区域的中心点上应用3阶泰勒级数展开近似空间导数,可以得到微分的近似结果
$$ \begin{split} \frac{{\partial {U_{ij}}(x,y,t)}}{{\partial x}} \approx\,& \Delta {U_{ij}}(x,y,t) + \{ {U_{ij}}({x_{\text{0}}}) \\ & + {U_{ij}}^{(1)}{x_{\text{0}}} \cdot ({U_{ij}}(x,y,t) - {x_{\text{0}}}) \\ & + {U_{ij}}^{(2)}{x_{\text{0}}} \cdot {({U_{ij}}(x,y,t) - {x_{\text{0}}})^2} \\ & + {U_{ij}}^{(3)}{x_{\text{0}}} \cdot {({U_{ij}}(x,y,t) - {x_{\text{0}}})^3}\} \end{split} $$ | (4) |
其中,$\Delta U_{ij}$表示中心点的微分过程,后面的表达式表示用泰勒展开式对中心点进行无限微分的过程。每个微分卷积层包括对每个变量的微分以及3阶的泰勒级数逼近。$\Delta U_{ij}$的具体形式为
$$ \begin{split} \,& \Delta {U_{ij}}(x,y,t) \\ \,& \quad = \frac{{{U_{ij}}(x + h,y,t) + {U_{ij}}(x - h,y,t) - 2{U_{ij}}(x,y,t)}}{{{h^2}}} \\ & \qquad + \frac{{{U_{ij}}(x,y + h,t) + {U_{ij}}(x,y - h,t) - 2{U_{ij}}(x,y,t)}}{{{h^2}}} \end{split} $$ | (5) |
其次,通过比较每个阶数微分过程中泰勒余项误差与误差阈值的差值大小决定是否动态地调整泰勒展开的截断阶数以及微分项数。初始的泰勒展开截断阶数与微分项数为3,如果微分过程中的泰勒余项误差大于误差阈值,需要增大截断阶数和微分项数,以提高微分过程的近似精度。
图6为多层卷积耦合近似PDE的示意图,此过程将不同阶数之间的微分卷积层使用耦合系数耦合,整个过程通过神经网络学习不同微分阶数的卷积核以及泰勒展开式中无限微分过程的系数,以获得与输入维度相同的输出,耦合方式如式(6)所示
$$ \frac{{\partial {U_{ij}}}}{{\partial t}} = \sum {{C_{ij}}\frac{{{\partial ^{i + j}}{U_{ij}}}}{{{\partial ^i}x{\partial ^j}y}}} $$ | (6) |
其中,$ {C_{ij}} $为耦合系数,$ \dfrac{{{\partial ^{i + j}}{U_{ij}}}}{{{\partial ^i}x{\partial ^j}y}} $表示空间变量中不同阶数的微分过程。在每个时间步的每个离散空间点上使用泰勒展开式完成近似计算,得到每个子区域的预估解$ {\hat U_{ij}} $。最后,合并每个子区域的预估解,从而获得最终的预测结果$ \sum {{{\hat U}_{ij}}} $。
所有实验均在RTX 3080GPU上实现,并使用Pytorch框架搭建TDI-CRNN模型。同时,分别在人工合成的Moving MNIST数据集、真实场景中的KTH数据集和CIKM雷达回波数据集上开展实验。在训练过程中,通道数设置为64,学习率设置为0.001;每次迭代中,随机选择8个样本序列进行训练,共进行了50 000次训练。
针对不同数据集,采用不同的评价指标完成性能评估。具体而言:对于Moving MNIST数据集,使用均方误差(Mean Squared Error, MSE)和结构相似性指数(Structural Similarity Index Measure, SSIM)进行评估;对于KTH数据集,使用SSIM和峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)进行评估;对于CIKM雷达回波数据集,使用MSE、Heidke技术得分(Heidke Skill Score, HSS)和临界成功指数(Critical Success Index, CSI)进行评估。
本文对比了两种主要类型的时空序列预测模型:数据驱动的预测模型和知识引导与数据驱动的预测模型。其中,数据驱动的预测模型主要依赖于深度学习方法,通过学习时空序列的历史数据来预测未来数据的趋势;而知识引导与数据驱动的预测模型不仅利用了深度学习的数据驱动特性,还融合了先验的物理知识,使模型能够更准确地捕捉时空数据的动态变化规律。
表1概述了数据驱动的预测模型。表中将数据驱动模型分为3类改进方法:(1)基于门控机制或堆叠方式的改进模型。此类模型通过改变RNN中的门控机制或堆叠方式来缓解梯度消失的问题。不同的门控机制或堆叠方式能够改变模型捕获时序信息的方式。然而,在门控机制或堆叠方式上改进的模型无法有效地捕获多尺度语义信息。(2)使用编码器-解码器架构的模型。此类模型能够编码输入序列并逐步生成输出序列,它们从输入的时空数据中提取特征,以便更好地捕获时间相关性。(3)引入自注意力机制的模型。此类模型能够捕捉长程时空信息,从而更准确地预测出未来的时间步或空间位置。
类别 | 模型内涵 | |
模型名称 | 模型思想 | |
基于门控机制或堆叠方式的改进模型 | ConvLSTM[5] | 提出使用卷积运算代替LSTM中的普通乘法运算 |
Conv-TT-LSTM[8] | 提出了高阶卷积LSTM | |
PredRNN[9] | 使用共享输出门实现无缝的记忆融合 | |
MIM[12] | 提出的网络能够同时捕捉平稳信息和非平稳信息 | |
E3D-LSTM[26] | 将三维卷积集成到循环网络中 | |
ZNet[27] | 提出新的堆叠方式,隐藏状态沿Z曲线更新 | |
IM-LSTM[28] | 设计了SIM模块,用于更新隐藏状态 | |
DFN[29] | 生成动态卷积学习,以实现自适应特征提取 | |
使用编码器-解码器架构的模型 | MCNet[30] | 在编码器-解码器以及ConvLSTM上进行预测 |
STMFANet[31] | 提出空间小波分析模块,统一处理时空信息 | |
FRNN[32] | 堆叠多个循环单元层,得到自动编码器 | |
引入注意力机制的模型 | SA-ConvLSTM[7] | 加入自注意机制,捕获长程空间依赖关系 |
CSAConvLSTM[33] | 加入自注意力机制,捕获全局时空特征 |
表2概述了知识引导与数据驱动的预测模型。表中将这种模型分为两类:(1)嵌入偏微分方程的深度预测网络:此类模型通过引入导数项捕捉相邻位置之间的时空依赖关系,从而提高预测的准确性。然而,嵌入偏微分方程的深度预测网络忽略了高阶微分在神经网络中的近似精度。(2)概率预测模型:此类模型使用卷积运算处理输入数据,预测离散空间上的概率分布,然后根据分布情况进行预测。
(1) 数据集描述:在Moving MNIST数据集中,训练集有20 000个序列,测试集有5 000个序列;每个序列包含20帧连续图像,前10帧为输入,后10帧为输出。每个图像中包含两个运动的手写字符,图像尺寸为${\text{64}} \times {\text{64}}$。该数据集中每个序列的两个移动数字之间会频繁地发生遮挡,增加了模型在长时预测中的挑战性。
(2) 实验结果:通过计算预测图像与真实图像之间的MSE和SSIM验证实验效果。MSE和SSIM的计算过程如式(7)和式(8)所示
$$ {\mathrm{MSE}} = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{({y_i} - {{y'}_i})}^2}} } $$ | (7) |
$$ {\mathrm{SSIM}} = \frac{{(2{\mu _x}{\mu _y} + {C_1})(2{\sigma _{{\rm{xy}}}} + {C_2})}}{{(\mu _x^2 + \mu _y^2 + C{}_1)(\mu _x^2 + \mu _y^2 + {C_2})}} $$ | (8) |
在MSE的表达式中,${y_i}$和${y'_i}$分别表示真实值和预测值。在SSIM的表达式中,$x,y$表示两张图像的像素值,${\mu _x}$表示$x$的均值,${\mu _y}$表示$y$的均值,$\sigma _x^{\text{2}}$表示$x$的方差,$\sigma _y^{\text{2}}$表示$y$的方差,${\sigma _{{\rm{xy}}}}$表示$x$和$y$的协方差,${C_{\text{1}}} = {({K_{\text{1}}}L)^2}$,${C_{\text{2}}} = {({K_2}L)^2}$,L是像素值的动态范围,即0~255,${K_{\text{1}}}{\text{ = 0}}{\text{.01}}$,${K_{\text{2}}}{\text{ = 0}}{\text{.03}}$。较小的MSE值表示预测图像与真实图像之间的差异较小,较大的SSIM值表示预测图像和真实图像的相似度较高,预测质量更好。
表3呈现了Moving MNIST数据集在10个时间步上的平均预测结果。其中,加粗数值为最优结果,下划线数值为次优结果;标有符号*的表示使用数据驱动的模型,标有符号·的表示使用知识引导与数据驱动的模型,标有符号×的表示消融了部分模块的模型。实验结果表明,不论对比数据驱动的模型还是对比知识引导与数据驱动的模型,TDI-CRNN模型都能更有效地捕捉空间依赖性。
模型 | SSIM↑ | $ \varDelta $ | MSE↓ | $ \varDelta $ |
ConvLSTM[5]* | 0.707 | – | 103.3 | – |
IM-LSTM[28]* | 0.876 | +0.169 | 67.4 | –35.9 |
PredRNN[9]* | 0.867 | +0.160 | 56.8 | –46.5 |
Conv-TT-LSTM[8]* | 0.905 | +0.198 | 53.0 | –50.3 |
MIM[12]* | 0.901 | +0.194 | 44.2 | –59.1 |
SA-ConvLSTM[7]* | 0.903 | +0.196 | 43.9 | –59.4 |
LMC-memory[34]* | 0.904 | +0.197 | 42.9 | –60.4 |
PDE-Net[16]· | 0.621 | –0.086 | 160.2 | +56.9 |
CDNA[19]· | 0.721 | +0.014 | 97.4 | –5.9 |
VPN[22]· | 0.870 | +0.163 | 70.2 | –33.1 |
DDPAE[18]· | 0.905 | +0.198 | 43.5 | –59.8 |
MSARM(4层)× | 0.873 | +0.166 | 43.9 | –59.4 |
Taylor+ST-LSTM(4层)× | 0.893 | +0.186 | 44.2 | –59.1 |
TDI-CRNN | 0.912 | +0.205 | 42.7 | –60.6 |
图7展示了Moving MNIST数据集上的两个可视化预测示例。在所有模型的预测结果中,长时预测普遍存在预测模糊现象。相比于其他对比模型,TDI-CRNN模型和PredRNN模型的预测质量更高。第1个示例预测的是数字0和数字8纠缠分离的过程,虽然PredRNN模型相较于其他对比模型预测的清晰度较高,但在长时间预测中数字“8”逐渐看起来像数字“3”。第2个示例预测的是数字9的运动轨迹,可以看出PredRNN模型预测的数字位置较真实图像有很大的差异,在长时间的预测外观上有明显的偏差。与之相比,TDI-CRNN模型能够更准确地预测出两个手写数字之间的纠缠过程,位置和外观变化预测得更好。
图8展示了逐帧预测的MSE对比曲线。可以看出,TDI-CRNN模型每一帧的MSE值均低于其他对比模型,这说明本文提出的模型能够更准确地预测出时空序列数据的变化趋势。同时,此结果证实了在时空序列建模中,TDI-CRNN模型通过使用不同的微分阶数能够更好地捕捉相邻位置之间的时空依赖关系,从而能够提高预测的精度。
(3) 消融实验:如表3所示,为了进一步分析TDI-CRNN的不同模块对模型性能的影响,本文在Moving MNIST数据集上对模型开展了消融实验。为了保证实验的公平性,实验中的模型超参数保持一致。
(a) MSARM:该模型仅包含MSARM模块,没有使用多阶泰勒近似物理模块。结果表明,相较于ST-LSTM单元,采用MSARM模块后模型预测结果的MSE值呈大幅度降低,证实了在时空变化特性的捕捉能力上MSARM比ST-LSTM更有优越性。
(b) Taylor+ST-LSTM:此模型只包含ST-LSTM单元和多阶泰勒近似物理模块,没有使用MCSA-UNet模块。相对于PDE-Net和VPN等集成物理知识的模型,该模型在性能上有所提升。这表明,ST-LSTM单元与多阶泰勒近似物理模块的融合能够捕捉数据的潜在物理规律,但性能仍有提升空间。
TDI-CRNN模型是在融合MSARM和Taylor+ST-LSTM的基础上,将物理知识集成到递归网络中。实验结果表明,与融合物理知识的对比模型相比较,TDI-CRNN模型预测结果的MSE和SSIM数值均取得了显著的性能提升。图7的可视化结果表明,TDI-CRNN模型的预测结果更清晰,能更准确地预测出两个运动数字的外观和位置,这进一步证实了该模型能够更有效地捕捉时空序列数据的特征和行为,提高预测图像的质量和准确度。
表4展示了不同泰勒截断阶数和微分项数对模型性能的影响。其中,加粗数值为最优结果。结果表明,不同的泰勒截断阶数和微分项数对预测性能产生了不同的影响,截断阶数为3以及微分项数为4时模型的预测性能最好。这表明,增加截断阶数和微分项数会增加模型的复杂度,但不一定能够提高模型的预测性能;3阶截断阶数已经提供了足够的复杂度来捕获微分过程的近似精度,并避免了过度拟合。微分项数为4时提高了模型对时空数据更准确的表达能力,使得模型在综合考虑其复杂性和泛化性能的情况下达到了最佳状态。
微分项数 | 截断阶数 | ||
2 | 3 | 4 | |
3阶 | MSE=45.80 SSIM=0.886 |
MSE=44.31 SSIM=0.892 |
MSE=45.26 SSIM=0.884 |
4阶 | MSE=43.77 SSIM=0.902 |
MSE=42.71 SSIM=0.910 |
MSE=43.54 SSIM=0.897 |
5阶 | MSE=46.27 SSIM=0.886 |
MSE=43.54 SSIM=0.898 |
MSE=46.514 SSIM=0.880 |
(1) 数据集描述:KTH数据集涵盖了6种不同的动作类别,包括行走、慢跑、跑步、拳击、挥手和拍手。每个动作类别都包含了来自不同参与者和不同背景的视频片段,使得KTH数据集能够在动作识别领域得到广泛应用。KTH数据集的训练集包含108 717个序列样本,测试集包含4 086个序列样本。训练集和测试集都是由10帧的输入图像和10帧的输出图像构成,图像的分辨率为${\text{128}} \times {\text{128}}$。
(2) 实验结果:对于KTH数据集,使用PSNR和SSIM作为评价指标完成模型预测性能的评估。PSNR的计算过程如式(9)所示
$$ {\mathrm{PSNR}} = 10\lg\frac{{{2^{{\mathrm{bit}}}} - 1}}{{{\mathrm{MSE}}}} $$ | (9) |
其中,$ {\text{bit}} $为每个像素点存储所占的位数。PSNR和SSIM都用于衡量两幅图像之间的像素差异,数值越高表明模型的预测质量越好。
表5为KTH数据集在20个时间步上的平均预测结果。其中,加粗数值为最优结果,下划线数值为次优结果;标有*的符号表示使用数据驱动的模型,标有·的符号表示使用知识引导与数据驱动的模型。实验结果表明,TDI-CRNN模型预测结果的SSIM指标均高于其他对比模型,这表示该模型能够更好地捕捉时空序列之间的关系。然而,在PSNR指标上,E3D-LSTM模型的性能表现最好,这表明TDI-CRNN仍需强化对其时空依赖关系的建模。
模型 | SSIM↑ | $ \varDelta $ | PSNR (dB)↑ | $ \varDelta $ |
ConvLSTM[5]* | 0.712 | — | 23.58 | — |
FRNN[32]* | 0.771 | +0.059 | 26.12 | +2.54 |
DFN[29]* | 0.794 | +0.082 | 27.26 | +3.68 |
ZNet[27]* | 0.817 | +0.105 | 27.58 | +4.00 |
MCNet[30]* | 0.804 | +0.092 | 25.95 | +2.37 |
PredRNN[9]* | 0.839 | +0.127 | 27.55 | +3.97 |
CSAConvLSTM[33]* | 0.840 | +0.128 | 27.91 | +4.33 |
STMFANet[31]* | 0.851 | +0.139 | 27.24 | +3.66 |
E3D-LSTM[26]* | 0.879 | +0.167 | 29.31 | +5.73 |
PDE-Net[16]· | 0.662 | –0.05 | 22.45 | –1.13 |
DDPAE[18]· | 0.845 | +0.133 | 28.42 | +4.84 |
TDI-CRNN | 0.882 | +0.170 | 29.03 | +5.45 |
图9给出了两个预测示例样本。在逐帧预测的过程中,所有模型都表现出预测模糊的趋势,并且预测的人物运动轨迹有明显差异。但是,从可视化结果可以看出,TDI-CRNN模型相对准确地预测出了不同动作的运动趋势和外观。特别地,在动作摆幅程度的预测中,TDI-CRNN模型能较准确地捕捉到前后运动的动作姿势。
从图10的逐帧预测结果可以看出,在所有模型最后10帧预测结果中,PSNR和SSIM指标均出现了显著下降的趋势。这表明随着预测时间的增加,模型的预测质量逐渐下降。然而,TDI-CRNN模型预测结果的PSNR和MSE指标都高于其他对比模型,这表明TDI-CRNN模型在长时预测情形中能提高预测的质量。
(1) 数据集描述:CIKM数据集包括14 000个真实雷达回波序列,其中训练集有8 000个,验证集有2 000个,测试集有4 000个。每个序列有15帧雷达回波图,前5帧图像是输入,后10帧图像是输出,图像分辨率为$101 \times 101$。
在CIKM数据集上,使用HSS和CSI作为降水指标评估模型的性能,衡量预测的准确性;HSS和CSI的数值越大,表明网络性能越好。具体而言,图像的像素值被转换为雷达回波的强度,并设置不同的降雨量阈值,转换过程如式(10)所示
$$ {\text{dBZ = }}\frac{{{\text{pixel}} \times {\text{95}}}}{{{\text{255}}}}{{ - 10}} $$ | (10) |
其中,dBZ表示图像中每个点的雷达回波强度,pixel表示图像的像素值。在评估过程中,本实验将阈值分别设置为5, 15和30 dBZ。
CSI和HSS指标使用一个阈值将雷达回波图像和预测图像转换为0/1矩阵,其中大于阈值的格点为1,小于阈值的格点为0,并计算TP(预测=1,真值=1),FP(预测=0,真值=1),FN(预测=1,真值=0)以及TN(预测=0,真值=0)。CSI和HSS的计算过程如式(11)和式(12)所示
$$ \quad {\text{CSI = }}\frac{{{\text{TP}}}}{{{\text{TP + FP + FN}}}} $$ | (11) |
$$ \quad {\text{HSS=}}\frac{{{\text{TP}} \times {{{\mathrm{TN}} - {\mathrm{FN}}}} \times {\text{FP}}}}{{{\text{(TP+FN)(FN+TN)+(TP+FP)(FP+ TN)}}}} $$ | (12) |
(2) 实验结果:对于CIKM降水雷达回波数据集,分别在阈值$\tau \ge 5$, $\tau \ge 15$, $\tau \ge 30$ dBZ时使用HSS和CSI以及MSE指标对预测结果予以评估,同时将不同阈值的评价结果进行平均,作为最终计算结果。
表6为使用CIKM雷达回波数据集在10个时间步上的平均预测结果。其中,加粗数值为最优结果,下划线数值为次优结果;标有*的符号表示使用数据驱动的模型,标有·的符号表示使用知识引导与数据驱动的模型。实验结果表明,本文提出的模型相较于其他融合物理知识的对比模型在气象预测中取得了一定的性能提升。在CSI指标上,进一步验证了TDI-CRNN模型在处理不确定性气象预测任务时的优越性。此外,TDI-CRNN预测结果的MSE下降到了36.8,这表明该模型能够更准确地捕捉预测图像与真实图像之间的像素差异。通过分析HSS,CSI和MSE等评价指标的结果,相对于PredRNN等数据驱动模型以及DDPAE等数据驱动与知识引导类型的模型,TDI-CRNN模型在CIKM雷达回波数据集上表现出了更好的性能。
模型 | HSS↑ | CSI↑ | MSE↓ | |||||||||||
$\tau \ge 5$ | $\tau \ge 15$ | $\tau \ge 30$ | 平均值 | $ \varDelta $ | $\tau \ge 5$ | $\tau \ge 15$ | $\tau \ge 30$ | 平均值 | $ \varDelta $ | $ \varDelta $ | ||||
ConvLSTM[5]* | 0.662 | 0.569 | 0.272 | 0.501 | — | 0.743 | 0.557 | 0.185 | 0.495 | — | 94.7 | — | ||
PredRNN[9]* | 0.678 | 0.571 | 0.281 | 0.508 | +0.007 | 0.755 | 0.569 | 0.199 | 0.508 | +0.013 | 104.1 | +9.3 | ||
RC-LSTM[34]* | 0.682 | 0.580 | 0.288 | 0.513 | +0.012 | 0.761 | 0.571 | 0.225 | 0.509 | +0.014 | 88.2 | –9.2 | ||
PDE-Net[16]· | 0.664 | 0.574 | 0.275 | 0.503 | +0.002 | 0.749 | 0.558 | 0.192 | 0.501 | +0.006 | 78.6 | –16.1 | ||
Advection-diffusion[21]· | 0.679 | 0.579 | 0.288 | 0.509 | +0.008 | 0.759 | 0.571 | 0.209 | 0.510 | +0.015 | 55.4 | –39.3 | ||
DDPAE[18]· | 0.682 | 0.581 | 0.291 | 0.514 | +0.013 | 0.764 | 0.572 | 0.227 | 0.512 | +0.017 | 43.2 | –51.5 | ||
TDI-CRNN | 0.685 | 0.582 | 0.293 | 0.516 | +0.015 | 0.767 | 0.578 | 0.260 | 0.515 | +0.02 | 36.8 | –57.9 |
图11给出了雷达回波图的可视化预测结果。从图中可以看出,输入图像显示右下角的云层聚集,而在预测的后10帧图像中,云层聚集的位置逐渐扩散至左下角和右上角,同时中间部分也出现了云层聚集。可视化结果表明,PredRNN以及DDPAE等模型在长时预测中产生的结果逐渐变得模糊,只能预测到部分云层的变化。然而,TDI-CRNN模型能够更好地预测出中间部分小云层的出现,这说明在长时预测中,该模型能更好地捕捉云层的运动变化趋势,在处理复杂的气象变化时具有一定的优势。
图12为利用CIKM雷达回波数据集在不同时间步情形下的CSI和HSS指标变化曲线。CSI-30表示模型对于强降水的预测情况,这是一个反映预测可靠性和准确性的重要指标。从中可以看出,在降水阈值$\tau = 30$ dBZ的情况下,基于TDI-CRNN模型预测结果产生的指标数值相较于其他模型有较明显的提升。本文提出的TDI-CRNN模型在预测强降水的情况下表现出了更高的准确性和可靠性。
本文提出了融合物理知识和递归网络的TDI-CRNN模型,该模型不仅能够捕捉时空动力系统的复杂变化,还能够利用物理知识提高模型的建模能力。首先,通过堆叠MSARM模块捕捉时空动力系统的复杂变化,从数据中学习系统的变化规律。其次,将泰勒展开式作为每个微分项的无限微分函数,并且动态调整截断阶数以及微分项数。TDI-CRNN模型通过在空间上进行微分操作捕获时空数据相邻空间之间的依赖性,在长期预测中取得了更准确的预测结果。
本文的贡献在于将数据驱动和知识引导相结合,尤其在时空变化规律较复杂时表现出一定的优势。然而,由于本文使用了泰勒展开式作为每个微分项的无限微分函数提高近似精度,引入了多个微分项以及泰勒截断阶数,增加了计算的复杂性,可能在实际应用中会对模型的实时性产生一定的影响。所以,未来的研究可以探讨如何在保持精度的同时降低计算复杂性,以满足实际应用的需求。此外,考虑到真实世界中的不确定性因素,可以通过融合更多领域的物理知识(例如,使用热力学、气象学和流体力学等领域知识建模气象演变规律),更全面地建模时空动力系统的物理机制,提高深度学习模型在不确定情况下的预测能力。
[1] |
刘博, 王明烁, 李永, 等. 深度学习在时空序列预测中的应用综述[J]. 北京工业大学学报, 2021, 47(8): 925–941. doi: 10.11936/bjutxb2020120037.
LIU Bo, WANG Mingshuo, LI Yong, et al. Deep learning for spatio-temporal sequence forecasting: A survey[J]. Journal of Beijing University of Technology, 2021, 47(8): 925–941. doi: 10.11936/bjutxb2020120037.
|
[2] |
周康辉. 基于深度卷积神经网络的强对流天气预报方法研究[D]. [博士论文], 中国气象科学研究院, 2021. doi: 10.27631/d.cnki.gzqky.2021.000006.
ZHOU Kanghui. Convective weather forecasting with convolutional neural networks[D]. [Ph. D. dissertation], Chinese Academy of Meteorological Sciences, 2021. doi: 10.27631/d.cnki.gzqky.2021.000006.
|
[3] |
杨函. 基于深度学习的气象预测研究[D]. [硕士论文], 哈尔滨工业大学, 2017.
YANG Han. Research on weather forecasting based on deep learning[D]. [Master dissertation], Harbin Institute of Technology, 2017.
|
[4] |
徐成鹏, 曹勇, 张恒德, 等. U-Net模型在京津冀临近降水预报中的应用和检验评估[J]. 气象科学, 2022, 42(6): 781–792. doi: 10.12306/2022jms.0078.
XU Chengpeng, CAO Yong, ZHANG Hengde, et al. Application and test evaluation of U-Net model in Beijing-Tianjin-Hebei precipitation nowcasting[J]. Journal of the Meteorological Sciences, 2022, 42(6): 781–792. doi: 10.12306/2022jms.0078.
|
[5] |
SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]. The 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 802–810.
|
[6] |
SHI Xingjian, GAO Zhihan, LAUSEN L, et al. Deep learning for precipitation nowcasting: A benchmark and a new model[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 5622–5632.
|
[7] |
LIN Zhihui, LI Maomao, ZHENG Zhuobin, et al. Self-attention ConvLSTM for spatiotemporal prediction[C]. The Thirty-Fourth AAAI Conference on Artificial Intelligence, New York, USA, 2020: 11531–11538. doi: 10.1609/aaai.v34i07.6819.
|
[8] |
SU Jiahao, BYEON W, KOSSAIFI J, et al. Convolutional tensor-train LSTM for spatio-temporal learning[C]. The 34th International Conference on Neural Information Processing Systems, Vancouver, Canada, 2020: 1150.
|
[9] |
WANG Yunbo, WU Haixu, ZHANG Jianjin, et al. PredRNN: A recurrent neural network for spatiotemporal predictive learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2): 2208–2225. doi: 10.1109/TPAMI.2022.3165153.
|
[10] |
WANG Yunbo, GAO Zhifeng, LONG Mingsheng, et al. PredRNN++: Towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning[C]. The 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 5123–5132.
|
[11] |
WU Haixu, YAO Zhiyu, WANG Jianmin, et al. MotionRNN: A flexible model for video prediction with spacetime-varying motions[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 15430–15439. doi: 10.1109/CVPR46437.2021.01518.
|
[12] |
WANG Yunbo, ZHANG Jianjin, ZHU Hongyu, et al. Memory in memory: A predictive neural network for learning higher-order non-stationarity from spatiotemporal dynamics[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019: 9146–9154. doi: 10.1109/CVPR.2019.00937.
|
[13] |
王杨刚, 郝丽荣, 黄辉, 等. 基于空间数据和专家知识驱动的地质编图技术研究与应用[J]. 地质通报, 2019, 38(12): 2067–2076. doi: 10.12097/j.issn.1671-2552.2019.12.015.
WANG Yanggang, HAO Lirong, HUANG Hui, et al. Research on geological map compilation technology based on spatial data and geological knowledge[J]. Geological Bulletin of China, 2019, 38(12): 2067–2076. doi: 10.12097/j.issn.1671-2552.2019.12.015.
|
[14] |
毛超利. 基于深度学习的偏微分方程求解方法[J]. 智能物联技术, 2021, 53(5): 18–23,30.
MAO Chaoli. A method for solving partial differential equations based on deep learning[J]. Technology of IoT & AI, 2021, 53(5): 18–23,30.
|
[15] |
金哲, 张引, 吴飞, 等. 数据驱动与知识引导结合下人工智能算法模型[J]. 电子与信息学报, 2023, 45(7): 2580–2594. doi: 10.11999/JEIT220700.
JIN Zhe, ZHANG Yin, WU Fei, et al. Artificial intelligence algorithms based on data-driven and knowledge-guided models[J]. Journal of Electronics & Information Technology, 2023, 45(7): 2580–2594. doi: 10.11999/JEIT220700.
|
[16] |
LONG Zichao, LU Yiping, MA Xianzhong, et al. PDE-Net: Learning PDEs from data[C]. The 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 3208–3216.
|
[17] |
LE GUEN V and THOME N. Disentangling physical dynamics from unknown factors for unsupervised video prediction[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 11471–11481. doi: 10.1109/CVPR42600.2020.01149.
|
[18] |
HSIEH J T, LIU Bingbin, HUANG Dean, et al. Learning to decompose and disentangle representations for video prediction[C]. The 32nd International Conference on Neural Information Processing Systems, Montréal, Canada, 2018: 515–524.
|
[19] |
FINN C, GOODFELLOW I, and LEVINE S. Unsupervised learning for physical interaction through video prediction[C]. The 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016: 64–72.
|
[20] |
REN Pu, RAO Chengping, YANG Liu, et al. PhyCRNet: Physics-informed convolutional-recurrent network for solving spatiotemporal PDEs[J]. Computer Methods in Applied Mechanics and Engineering, 2022, 389: 114399. doi: 10.1016/j.cma.2021.114399.
|
[21] |
DE BÉZENAC E, PAJOT A, and GALLINARI P. Deep learning for physical processes: Incorporating prior scientific knowledge[J]. Journal of Statistical Mechanics: Theory and Experiment, 2019, 2019: 124009. doi: 10.1088/1742-5468/ab3195.
|
[22] |
KALCHBRENNER N, VAN DEN OORD A, SIMONYAN K, et al. Video pixel networks[C]. The 34th International Conference on Machine Learning, Sydney, Australia, 2017: 1771–1779.
|
[23] |
SRIVASTAVA N, MANSIMOV E, and SALAKHUTDINOV R. Upervised learning of video representations using LSTMs[C]. The 32nd International Conference on International Conference on Machine Learning, Lille, France, 2015: 843–852.
|
[24] |
SCHULDT C, LAPTEV I, and CAPUTO B. Recognizing human actions: A local SVM approach[C]. The 17th International Conference on Pattern Recognition, Cambridge, UK, 2004: 32–36. doi: 10.1109/ICPR.2004.1334462.
|
[25] |
阿里巴巴天池大赛, CIKM AnalytiCup2017短时定量降水预测数据[EB/OL].https://tianchi.aliyun.com/dataset/1085.2018.
|
[26] |
WANG Yunbo, LU Jiang, YANG M H, et al. Eidetic 3D LSTM: A model for video prediction and beyond[C]. The 7th International Conference on Learning Representations, New Orleans, USA, 2019: 1–14.
|
[27] |
ZHANG Jianjin, WANG Yunbo, LONG Mingsheng, et al. Z-Order recurrent neural networks for video prediction[C]. 2019 IEEE International Conference on Multimedia and Expo (ICME), Shanghai, China, 2019: 230–235. doi: 10.1109/ICME.2019.00048.
|
[28] |
LIU Guixin and MA Zhonghua. Prediction of spatiotemporal sequence based on IM-LSTM[C]. 2022 2nd International Conference on Computer Science, Electronic Information Engineering and Intelligent Control Technology (CEI), Nanjing, China, 2022: 247–250. doi: 10.1109/CEI57409.2022.9950135.
|
[29] |
DE BRABANDERE B, JIA Xu, TUYTELAARS T, et al. Dynamic filter networks[C]. The 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016: 667–675.
|
[30] |
VILLEGAS R, YANG Jimei, HONG S, et al. Decomposing motion and content for natural video sequence prediction[C]. 5th International Conference on Learning Representations, Toulon, France, 2017.
|
[31] |
JIN Beibei, HU Yu, TANG Qiankun, et al. Exploring spatial-temporal multi-frequency analysis for high-fidelity and temporal-consistency video prediction[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 4553–4562. doi: 10.1109/CVPR42600.2020.00461.
|
[32] |
OLIU M, SELVA J, and ESCALERA S. Folded recurrent neural networks for future video prediction[C]. 15th European Conference on Computer Vision, Munich, Germany, 2018: 745–761. doi: 10.1007/978-3-030-01264-9_44.
|
[33] |
XIONG Taisong, HE Jianxing, WANG Hao, et al. Contextual Sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 12479–12491. doi: 10.1109/JSTARS.2021.3128522.
|
[34] |
LEE S, KIM H G, CHOI D H, et al. Video prediction recalling long-term motion context via memory alignment learning[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 3053–3062. doi: 10.1109/CVPR46437.2021.00307.
|
类别 | 模型内涵 | |
模型名称 | 模型思想 | |
基于门控机制或堆叠方式的改进模型 | ConvLSTM[5] | 提出使用卷积运算代替LSTM中的普通乘法运算 |
Conv-TT-LSTM[8] | 提出了高阶卷积LSTM | |
PredRNN[9] | 使用共享输出门实现无缝的记忆融合 | |
MIM[12] | 提出的网络能够同时捕捉平稳信息和非平稳信息 | |
E3D-LSTM[26] | 将三维卷积集成到循环网络中 | |
ZNet[27] | 提出新的堆叠方式,隐藏状态沿Z曲线更新 | |
IM-LSTM[28] | 设计了SIM模块,用于更新隐藏状态 | |
DFN[29] | 生成动态卷积学习,以实现自适应特征提取 | |
使用编码器-解码器架构的模型 | MCNet[30] | 在编码器-解码器以及ConvLSTM上进行预测 |
STMFANet[31] | 提出空间小波分析模块,统一处理时空信息 | |
FRNN[32] | 堆叠多个循环单元层,得到自动编码器 | |
引入注意力机制的模型 | SA-ConvLSTM[7] | 加入自注意机制,捕获长程空间依赖关系 |
CSAConvLSTM[33] | 加入自注意力机制,捕获全局时空特征 |
模型 | SSIM↑ | $ \varDelta $ | MSE↓ | $ \varDelta $ |
ConvLSTM[5]* | 0.707 | – | 103.3 | – |
IM-LSTM[28]* | 0.876 | +0.169 | 67.4 | –35.9 |
PredRNN[9]* | 0.867 | +0.160 | 56.8 | –46.5 |
Conv-TT-LSTM[8]* | 0.905 | +0.198 | 53.0 | –50.3 |
MIM[12]* | 0.901 | +0.194 | 44.2 | –59.1 |
SA-ConvLSTM[7]* | 0.903 | +0.196 | 43.9 | –59.4 |
LMC-memory[34]* | 0.904 | +0.197 | 42.9 | –60.4 |
PDE-Net[16]· | 0.621 | –0.086 | 160.2 | +56.9 |
CDNA[19]· | 0.721 | +0.014 | 97.4 | –5.9 |
VPN[22]· | 0.870 | +0.163 | 70.2 | –33.1 |
DDPAE[18]· | 0.905 | +0.198 | 43.5 | –59.8 |
MSARM(4层)× | 0.873 | +0.166 | 43.9 | –59.4 |
Taylor+ST-LSTM(4层)× | 0.893 | +0.186 | 44.2 | –59.1 |
TDI-CRNN | 0.912 | +0.205 | 42.7 | –60.6 |
微分项数 | 截断阶数 | ||
2 | 3 | 4 | |
3阶 | MSE=45.80 SSIM=0.886 |
MSE=44.31 SSIM=0.892 |
MSE=45.26 SSIM=0.884 |
4阶 | MSE=43.77 SSIM=0.902 |
MSE=42.71 SSIM=0.910 |
MSE=43.54 SSIM=0.897 |
5阶 | MSE=46.27 SSIM=0.886 |
MSE=43.54 SSIM=0.898 |
MSE=46.514 SSIM=0.880 |
模型 | SSIM↑ | $ \varDelta $ | PSNR (dB)↑ | $ \varDelta $ |
ConvLSTM[5]* | 0.712 | — | 23.58 | — |
FRNN[32]* | 0.771 | +0.059 | 26.12 | +2.54 |
DFN[29]* | 0.794 | +0.082 | 27.26 | +3.68 |
ZNet[27]* | 0.817 | +0.105 | 27.58 | +4.00 |
MCNet[30]* | 0.804 | +0.092 | 25.95 | +2.37 |
PredRNN[9]* | 0.839 | +0.127 | 27.55 | +3.97 |
CSAConvLSTM[33]* | 0.840 | +0.128 | 27.91 | +4.33 |
STMFANet[31]* | 0.851 | +0.139 | 27.24 | +3.66 |
E3D-LSTM[26]* | 0.879 | +0.167 | 29.31 | +5.73 |
PDE-Net[16]· | 0.662 | –0.05 | 22.45 | –1.13 |
DDPAE[18]· | 0.845 | +0.133 | 28.42 | +4.84 |
TDI-CRNN | 0.882 | +0.170 | 29.03 | +5.45 |
模型 | HSS↑ | CSI↑ | MSE↓ | |||||||||||
$\tau \ge 5$ | $\tau \ge 15$ | $\tau \ge 30$ | 平均值 | $ \varDelta $ | $\tau \ge 5$ | $\tau \ge 15$ | $\tau \ge 30$ | 平均值 | $ \varDelta $ | $ \varDelta $ | ||||
ConvLSTM[5]* | 0.662 | 0.569 | 0.272 | 0.501 | — | 0.743 | 0.557 | 0.185 | 0.495 | — | 94.7 | — | ||
PredRNN[9]* | 0.678 | 0.571 | 0.281 | 0.508 | +0.007 | 0.755 | 0.569 | 0.199 | 0.508 | +0.013 | 104.1 | +9.3 | ||
RC-LSTM[34]* | 0.682 | 0.580 | 0.288 | 0.513 | +0.012 | 0.761 | 0.571 | 0.225 | 0.509 | +0.014 | 88.2 | –9.2 | ||
PDE-Net[16]· | 0.664 | 0.574 | 0.275 | 0.503 | +0.002 | 0.749 | 0.558 | 0.192 | 0.501 | +0.006 | 78.6 | –16.1 | ||
Advection-diffusion[21]· | 0.679 | 0.579 | 0.288 | 0.509 | +0.008 | 0.759 | 0.571 | 0.209 | 0.510 | +0.015 | 55.4 | –39.3 | ||
DDPAE[18]· | 0.682 | 0.581 | 0.291 | 0.514 | +0.013 | 0.764 | 0.572 | 0.227 | 0.512 | +0.017 | 43.2 | –51.5 | ||
TDI-CRNN | 0.685 | 0.582 | 0.293 | 0.516 | +0.015 | 0.767 | 0.578 | 0.260 | 0.515 | +0.02 | 36.8 | –57.9 |
类别 | 模型内涵 | |
模型名称 | 模型思想 | |
基于门控机制或堆叠方式的改进模型 | ConvLSTM[5] | 提出使用卷积运算代替LSTM中的普通乘法运算 |
Conv-TT-LSTM[8] | 提出了高阶卷积LSTM | |
PredRNN[9] | 使用共享输出门实现无缝的记忆融合 | |
MIM[12] | 提出的网络能够同时捕捉平稳信息和非平稳信息 | |
E3D-LSTM[26] | 将三维卷积集成到循环网络中 | |
ZNet[27] | 提出新的堆叠方式,隐藏状态沿Z曲线更新 | |
IM-LSTM[28] | 设计了SIM模块,用于更新隐藏状态 | |
DFN[29] | 生成动态卷积学习,以实现自适应特征提取 | |
使用编码器-解码器架构的模型 | MCNet[30] | 在编码器-解码器以及ConvLSTM上进行预测 |
STMFANet[31] | 提出空间小波分析模块,统一处理时空信息 | |
FRNN[32] | 堆叠多个循环单元层,得到自动编码器 | |
引入注意力机制的模型 | SA-ConvLSTM[7] | 加入自注意机制,捕获长程空间依赖关系 |
CSAConvLSTM[33] | 加入自注意力机制,捕获全局时空特征 |
模型 | SSIM↑ | $ \varDelta $ | MSE↓ | $ \varDelta $ |
ConvLSTM[5]* | 0.707 | – | 103.3 | – |
IM-LSTM[28]* | 0.876 | +0.169 | 67.4 | –35.9 |
PredRNN[9]* | 0.867 | +0.160 | 56.8 | –46.5 |
Conv-TT-LSTM[8]* | 0.905 | +0.198 | 53.0 | –50.3 |
MIM[12]* | 0.901 | +0.194 | 44.2 | –59.1 |
SA-ConvLSTM[7]* | 0.903 | +0.196 | 43.9 | –59.4 |
LMC-memory[34]* | 0.904 | +0.197 | 42.9 | –60.4 |
PDE-Net[16]· | 0.621 | –0.086 | 160.2 | +56.9 |
CDNA[19]· | 0.721 | +0.014 | 97.4 | –5.9 |
VPN[22]· | 0.870 | +0.163 | 70.2 | –33.1 |
DDPAE[18]· | 0.905 | +0.198 | 43.5 | –59.8 |
MSARM(4层)× | 0.873 | +0.166 | 43.9 | –59.4 |
Taylor+ST-LSTM(4层)× | 0.893 | +0.186 | 44.2 | –59.1 |
TDI-CRNN | 0.912 | +0.205 | 42.7 | –60.6 |
微分项数 | 截断阶数 | ||
2 | 3 | 4 | |
3阶 | MSE=45.80 SSIM=0.886 |
MSE=44.31 SSIM=0.892 |
MSE=45.26 SSIM=0.884 |
4阶 | MSE=43.77 SSIM=0.902 |
MSE=42.71 SSIM=0.910 |
MSE=43.54 SSIM=0.897 |
5阶 | MSE=46.27 SSIM=0.886 |
MSE=43.54 SSIM=0.898 |
MSE=46.514 SSIM=0.880 |
模型 | SSIM↑ | $ \varDelta $ | PSNR (dB)↑ | $ \varDelta $ |
ConvLSTM[5]* | 0.712 | — | 23.58 | — |
FRNN[32]* | 0.771 | +0.059 | 26.12 | +2.54 |
DFN[29]* | 0.794 | +0.082 | 27.26 | +3.68 |
ZNet[27]* | 0.817 | +0.105 | 27.58 | +4.00 |
MCNet[30]* | 0.804 | +0.092 | 25.95 | +2.37 |
PredRNN[9]* | 0.839 | +0.127 | 27.55 | +3.97 |
CSAConvLSTM[33]* | 0.840 | +0.128 | 27.91 | +4.33 |
STMFANet[31]* | 0.851 | +0.139 | 27.24 | +3.66 |
E3D-LSTM[26]* | 0.879 | +0.167 | 29.31 | +5.73 |
PDE-Net[16]· | 0.662 | –0.05 | 22.45 | –1.13 |
DDPAE[18]· | 0.845 | +0.133 | 28.42 | +4.84 |
TDI-CRNN | 0.882 | +0.170 | 29.03 | +5.45 |
模型 | HSS↑ | CSI↑ | MSE↓ | |||||||||||
$\tau \ge 5$ | $\tau \ge 15$ | $\tau \ge 30$ | 平均值 | $ \varDelta $ | $\tau \ge 5$ | $\tau \ge 15$ | $\tau \ge 30$ | 平均值 | $ \varDelta $ | $ \varDelta $ | ||||
ConvLSTM[5]* | 0.662 | 0.569 | 0.272 | 0.501 | — | 0.743 | 0.557 | 0.185 | 0.495 | — | 94.7 | — | ||
PredRNN[9]* | 0.678 | 0.571 | 0.281 | 0.508 | +0.007 | 0.755 | 0.569 | 0.199 | 0.508 | +0.013 | 104.1 | +9.3 | ||
RC-LSTM[34]* | 0.682 | 0.580 | 0.288 | 0.513 | +0.012 | 0.761 | 0.571 | 0.225 | 0.509 | +0.014 | 88.2 | –9.2 | ||
PDE-Net[16]· | 0.664 | 0.574 | 0.275 | 0.503 | +0.002 | 0.749 | 0.558 | 0.192 | 0.501 | +0.006 | 78.6 | –16.1 | ||
Advection-diffusion[21]· | 0.679 | 0.579 | 0.288 | 0.509 | +0.008 | 0.759 | 0.571 | 0.209 | 0.510 | +0.015 | 55.4 | –39.3 | ||
DDPAE[18]· | 0.682 | 0.581 | 0.291 | 0.514 | +0.013 | 0.764 | 0.572 | 0.227 | 0.512 | +0.017 | 43.2 | –51.5 | ||
TDI-CRNN | 0.685 | 0.582 | 0.293 | 0.516 | +0.015 | 0.767 | 0.578 | 0.260 | 0.515 | +0.02 | 36.8 | –57.9 |