A Short-time Window ElectroEncephaloGram Auditory Attention Decoding Network Based on Multi-dimensional Characteristics of Temporal-spatial-frequency
-
摘要: 在鸡尾酒会场景中,听力正常的人有能力选择性地注意特定的说话者语音,但听力障碍者在这种场景中面临困难。听觉注意力解码(AAD)的目的是通过分析听者的脑电信号(EEG)响应特征来推断听者关注的是哪个说话者。现有的AAD模型只考虑脑电信号的时域或频域单个特征或二者的组合(如时频特征),而忽略了时-空-频域特征之间的互补性,这在一定程度上限制了模型的分类能力,进而影响了模型在决策窗口上的解码精度。同时,已有AAD模型大多在长时决策窗口(1~5 s)中有较高的解码精度。该文提出一种基于时-空-频多维特征的短时窗口脑电信号听觉注意解码网络(TSF-AADNet),用于提高短时决策窗口(0.1~1 s)的解码精度。该模型由两个并行的时空、频空特征提取分支以及特征融合和分类模块组成,其中,时空特征提取分支由时空卷积块和高阶特征交互模块组成,频空特征提取分支采用基于频空注意力的3维卷积模块(FSA-3DCNN),最后将双分支网络提取的时空和频空特征进行融合,得到最终的听觉注意力二分类解码结果。实验结果表明,TSF-AADNet模型在听觉注意检测数据集KULeuven(KUL)和听觉注意检测的脑电和音频数据集(DTU)的0.1 s决策窗口下,解码精度分别为91.8%和81.1%,与最新的AAD模型一种基于时频融合的双分支并行网络(DBPNet)相比,分别提高了4.7%和6.0%。TSF-AADNet作为一种新的短时决策窗口的AAD模型,可为听力障碍诊断以及神经导向助听器研发提供有效参考。Abstract:
Objective In cocktail party scenarios, individuals with normal hearing can selectively focus on specific speakers, whereas individuals with hearing impairments often struggle in such environments. Auditory Attention Decoding (AAD) aims to infer the speaker that a listener is attending to by analyzing their brain’s electrical response, recorded through ElectroEncephaloGram (EEG). Existing AAD models typically focus on a single feature of EEG signals in the time domain, frequency domain, or time-frequency domain, often overlooking the complementary characteristics across the time-space-frequency domain. This limitation constrains the model’s classification ability, ultimately affecting decoding accuracy within a decision window. Moreover, while many current AAD models exhibit high accuracy over long-term decision windows (1~5 s), real-time AAD in practical applications necessitates a more robust approach to short-term EEG signals. Methods This paper proposes a short-window EEG auditory attention decoding network, Temporal-Spatial-Frequency Features-AADNet (TSF-AADNet), designed to enhance decoding accuracy in short decision windows (0.1~1 s). TSF-AADNet decodes the focus of auditory attention from EEG signals, eliminating the need for speech separation. The model consists of two parallel branches: one for spatiotemporal feature extraction, and another for frequency-space feature extraction, followed by feature fusion and classification. The spatiotemporal feature extraction branch includes a spatiotemporal convolution block, a high-order feature interaction module, a two-dimensional convolution layer, an adaptive average pooling layer, and a Fully Connected (FC) layer. The spatiotemporal convolution block can effectively extract EEG features across both time and space dimensions, capturing the correlation between signals at different time points and electrode positions. The high-order feature interaction module further enhances feature interactions at different levels, improving the model’s feature representation ability. The frequency-space feature extraction branch is composed of an FSA-3DCNN module, a 3D convolutional layer, and an adaptive average pooling layer, all based on frequency-space attention. The FSA-3DCNN module highlights key information in the EEG signals’ frequency and spatial dimensions, strengthening the model’s ability to extract features specific to certain frequencies and spatial positions. The spatiotemporal features from the spatiotemporal attention branch and the frequency-space features from the frequency-space attention branch are fused, fully utilizing the complementarity between the spatiotemporal and frequency domains of EEG signals. This fusion enables the final binary decoding of auditory attention and significantly improves decoding performance within the short decision window. Results and Discussions The TSF-AADNet model proposed in this paper is evaluated on four types of short-time decision windows using the KUL and DTU datasets. The decision window durations range from very short to relatively short, covering various real-world scenarios such as instantaneous information capture in real-time communication and rapid auditory response situations. The experimental results are presented in Figure 4 . Under the short decision window conditions, the TSF-AADNet model demonstrates excellent performance on both the KUL and DTU datasets. In testing with the KUL dataset, the model’s decoding accuracy increases steadily and significantly as the decision window duration extends from the shortest time. This indicates that the model effectively adapts to decision windows of varying lengths, accurately extracting key information from complex EEG signals to achieve precise decoding. Similarly, for the DTU dataset, the decoding accuracy of the TSF-AADNet model improves as the decision window lengthens. This result aligns with prior studies in the field, further confirming the robustness and effectiveness of TSF-AADNet in short-time decision window decoding tasks. Additionally, to evaluate the specific contributions of each module in the TSF-AADNet model, ablation experiments are conducted on various modules. Ablation of two single-branch networks, without feature fusion, highlights the importance of integrating time-space-frequency features simultaneously. The contributions of the frequency attention and spatial attention mechanisms in the FSA-3DCNN module are also verified by removing key modules and comparing the model’s performance before and after each removal. (Figure 5 ) Accuracy of the TSF-AADNet model for decoding auditory attention of all subjects on the KUL and DTU datasets with short decision windows; Average AAD accuracy of various models with four types of short decision windows on KUL and DTU datasets are shown. (Table 2 )Conclusions To evaluate the performance of the proposed AAD model, TSF-AADNet is compared with five other AAD classification models across four short-time decision windows using the KUL and DTU datasets. The experimental results demonstrate that the decoding accuracy of the TSF-AADNet model is 91.8% for the KUL dataset and 81.1% for the DTU dataset under the 0.1 s decision window, exceeding the latest AAD model, DBPNet, by 4.7% and 6.0%, respectively. Therefore, TSF-AADNet, as a novel model for short-time decision window AAD, provides an effective reference for the diagnosis of hearing disorders and the development of neuro-oriented hearing aids. -
1. 引言
在多干扰说话者的嘈杂环境中,听力正常的人能够选择性地注意到特定的说话者,这一现象被称为鸡尾酒会效应[1]。然而,听力障碍者在这种场景中常常面临困难。尽管助听器可以通过降低背景噪声来提高接收语音清晰度[2,3],但它们无法从同时放大的众多语音中识别出听者所关注的特定说话者。脑神经科学领域的最新研究表明[4–6],人类大脑活动与听觉注意力之间存在密切联系,听者大脑皮层脑电信号(ElectroEncephaloGram, EEG)能够自主追踪关注话者的语音特征[7],因此,可利用人类大脑神经活动解码听者的听觉注意力,相应算法称为听觉注意力解码(Auditory Attention Decoding, AAD)[8]。基于EEG的AAD模型通常分为线性[9–12]和非线性两类模型,线性模型又分为前向和后向模型。其中,前向模型是通过编码器从接收语音包络中预测脑电信号,而后向模型则通过检测到的EEG信号重建语音包络。然而,传统线性AAD模型在实际应用中存在两大局限:(1)线性模型需要干净的语音刺激。(2)由于听觉感知模型遵循非线性映射[13],因此线性模型不能较好地拟合神经响应与听觉刺激特征之间的关系,很难获得理想的解码结果。
近年来,基于深度学习的AAD模型得到了广泛研究与应用 [14–20]。这类方法可以仅依赖大脑活动来判断听者的注意力方向(如左或右),而无需干净的语音刺激作为参考。Vandecappelle等人[14]提出了一种基于卷积神经网络(Convolutional Neural Networks, CNN)的 AAD模型,在听觉注意检测数据集KULeuven (KULeuven, KUL)上,1 s决策窗口的解码精度达82%。Cai 等人[15]提出了一种共空间模式(Common Spatial Patterns, CSP)算法与CNN相结合的模型,进一步提高了AAD解码的准确性。基于脑电图的频率和通道神经注意听觉检测(EEG-based auditory attention detection via Frequency and Channel Neural Attention, CNN-FC)[16]引入了一种神经注意机制来模拟人脑中的听觉注意力,能够动态地为EEG信号的子带和通道分配不同的权重。脑电听觉空间注意解码的时空注意网络(a SpatioTemporal Attention network for decoding auditory spatial attention from EE , STAnet)[17]通过空间注意机制动态分配离散权重给EEG通道。基于脑电频谱-时空分析的听觉注意轨迹检测模型(detecting the locus of auditory attention Based on the Spectro-Spatial-temporal analysis of EEG, MBSSFCC) [18]结合了脑电信号的时频空特征,通过提取脑电信号每个频带的微分熵(Differential Entropy, DE)特征来表示脑电信号的紊乱程度。听觉空间注意检测的脑电图脑拓扑建模(brain topology modeling with EEG-Graphs for auditory spatial attention detection, EEG-Graph Net)[19]将图卷积与通道注意力相结合,基于脑电图信号的空间模式对人脑的拓扑结构进行建模,这为脑电听觉注意力解码提供了更高水平的可解释性。基于高密度网络的听觉空间注意脑电解码方法(a DenseNet-based method for Decoding auditory spatial attention with EEG, DenseNet-3D)[20]通过将原始脑电通道转换为2维空间拓扑图,结合3维深度卷积神经网络提取时空特征。尽管这些模型在1~5 s的决策窗口内解码精度取得了显著进展,但0.1~1 s的短决策窗口内的解码精度仍面临挑战,因此本文致力于提高短时决策窗口(0.1~1 s)的AAD性能。此外,现有的AAD模型大多只考虑单个特征或两个特征的组合(如时空特征、时频特征),忽略了时-频-空特征之间的互补性,这在一定程度上限制了模型的分类能力,进而影响解码精度。
针对上述问题,本文提出一种基于时空频多维特征的短时窗口脑电听觉注意解码网络(a short-time window EEG Auditory Attention Decoding Network based on multi-dimensional characteristics of Temporal-Spatial-Frequency, TSF-AADNet)。本网络由两个并行的时空、频空特征提取分支组成,提取的时空与频空特征进行融合以实现二分类,从而确定所关注话者的方向(左或右)。最终,本文在KUL和DTU这两个公开数据集上对TSF-AADNet模型性能进行了评估,验证了其有效性。
2. 方法
本文提出的TSF-AADNet如图1所示。TSF-AADNet旨在解码来自脑电图EEG的注意力方向焦点,从而消除对语音分离的需求。该网络由两个并行的时空、频空特征提取分支以及特征融合和分类这3个模块组成。
2.1 时空特征提取分支
时空特征提取分支如图1(a)所示,由时空卷积块、高阶特征交互模块、2维卷积层、自适应平均池化层和全连接层(Fully Connected layer, FC)层组成。首先,通过对原始脑电图EEG数据应用一个移动窗口,得到一个决策窗口序列,每个决策窗口包含一小段持续时间的EEG信号,设E∈[c1,⋯,ci,⋯,cC]∈RC×T为决策窗口的脑电图信号。其中,T表示决策窗口的长度,C表示EEG通道数,因此ci∈R1×T表示i个通道的T个样本的时间序列。
现有研究表明,CSP算法[21]在处理脑机接口任务方面表现出色。因此,首先,本文应用CSP算法来增强原始信号的信噪比
E′=CSP(E) (1) 2.1.1 时空卷积模块
文献[22]和文献[23]验证了可将2维卷积分离为两个时间和空间卷积层来设计卷积模块。如图2所示,将CSP增强后的脑电信号的维度扩展为Ets∈R1×C×T,作为时空卷积块的输入,分别沿时间维度和电极通道维度使用时间和空间卷积层。其中,时间卷积层的卷积核大小为(1,KC),同时保持输入输出时间维度不变,用于提取浅层时间维度特征,再传入到批归一化层(Batch Normalization, BN)来加速网络训练
Ets1=BN(Conv(Ei))∈RNS×C×T (2) 空间卷积层的卷积核大小为(C,1),C对应EEG信号的电极通道数,通过对全部电极进行卷积运算来学习脑电信号不同电极通道间的相互作用的表示
Ets2=BN(Conv(Ets1))∈RC×1×T (3) 在时间卷积层和空间卷积层之后采用整流线性单元ReLU作为激活函数,再沿着时间维度进行平均池化,减少运算量,防止过拟合
F=AvgPool(ReLU(Ets2))∈RC×1×TS (4) 2.1.2 高阶特征交互
自注意机制利用查询、键和值之间的矩阵乘法来实现相邻特征之间的2阶交互。然而,最新研究[24]表明,高阶交互比2阶交互能够更有效地提升模型性能。基于这一发现,本文采用了一个更有效的模块,称为高阶特征交互(High-order Feature Interaction, HFI)模块,该模块通过轻量化的递归门控卷积结构,实现EEG特征之间的高阶交互,并将自注意力中的2阶交互扩展到任意阶,而无需显著增加计算成本。
在高阶特征交互模块中,以时空卷积块得到的时空表示作为输入,通过测量特征图中不同时间位置之间的全局相关性,进一步提取长期时间特征
FM=Proj(F)∈R2C×1×TS (5) Proj(⋅)表示1×1卷积层,参数为输出通道数。之后,得到跨通道特征交互FM∈R2C×1×TS。
将提取的特征FM在特征图维度上拆分为n+1个部分,以实现n阶交互
[PC0×1×TS0,QC0×1×TS0,⋯,QCn−1×1×TSn−1]=FM (6) 第k阶的特征通道数Ck设置为
Ck=C/2n−1−k,k=0,1,⋯,n−1,n=3 (7) 进一步递归地执行乘法和1×1卷积运算
Pk+1=Proj(Pk⊙Qk),k=0,1,⋯,n−1 (8) 其中Pk∈RCk×1×TS是第k阶交互输出,⊙表示乘法运算,通过逐元素乘法明确地引入相邻特征Pk和Qk之间的相互作用。以从粗到细的方式执行交互,最终得到特征Pn∈RC×1×TS。
2.1.3 2D卷积和自适应平均池化
本文采用1×1卷积代替全连接层,再通过自适应平均池化得到时空特征,如式(9)所示
F1=AdaptiveAvgPool(Conv(Pn)) (9) 2.2 频空特征提取分支
频空特征提取模块如图1(b)所示,由结合3D卷积的频率-空间注意(Frequency Space Attention-3 Dimensional Convolutional Neural Network, FSA-3DCNN)、3D卷积层和自适应平均池化层组成。
同样,应用CSP算法来增强原始信号的信噪比,如式(10)所示
X=CSP(E) (10) 2.2.1 多频带DE特征提取
研究[18]证明提取脑电信号的多频带微分熵(Differential Entropy, DE)可以显著地提高AAD的准确性。因此,本文首先将增强后的脑电图数据分解为5个频带[25] ,δ(1~3Hz), θ(4~7Hz), α(8~13Hz), β(14~30Hz), γ(31~50Hz),定义XS=(XS1,XS2,XS3,XS4,XS5)∈RC×5为包含了5个频段的EEG信号的频域特征。其中,XSb是在频段b下的所有电极的数据。然后,从这5个频段中提取DE值,再利用各个电极的空间位置信息,采用文献[26]所示的3D~2D投影方法来获得32×32的2D平面,从而将XSb变换成2D频域平面图MSb∈RH×W,其中H和W分别为2D平面图的高与宽。将所有频段下形成的5个2D平面图堆叠起来,能够得到信号的3D频空表示:MS=(MS1,MS2,MS3,MS4,MS5)∈R5×H×W。
2.2.2 FSA-3DCNN
研究[16]表明,听觉诱发下不同频带的脑电信号对听觉注意解码的能力各不相同,因此,本文采用一种改进的3维注意卷积(3D Attention-based CNN)模块来自适应地捕获与注意力集中相关的大脑区域和频带,称为FSA-3DCNN。
对于输入的频空特征,依次经过3个FSA-3DCNN模块、1个3D卷积层以及1个自适应平均池化层。其中,每个FSA-3DCNN模块都使用相同的网络结构,其内部结构如图1(e)所示,包括1个3维卷积层、BN层、修正线性单元(Rectified Linear Unit, ReLU)层,频率-空间注意力(Frequency Space Attention Module, FSAM)层,以及最大池化层,这样就提取到了脑电信号的深度频-空特征。其中,3维卷积核的大小均为3×3×3,每层卷积核的个数分别为32, 64, 128。
频率-空间注意力的具体过程如图3所示。
频率注意:由于不同频带的脑电信号在认知任务中发挥着不同的作用,因此,本文在3DCNN层的输出中引入了频率注意力机制。如图3(a)所示,对于给定输入信号M∈RC×H×W×B,首先对M采用全局平均池化去除通道和空间维度,其过程定义为
Favg,b=1CHWC∑c=1H∑w=1W∑h=1(Mb(c,h,w)) (11) 其中,Mb∈RC×H×W×1,表示第b个频段下的C个通道中大小为H×W的2维特征图集合。然后,频率注意力机制由1维卷积和sigmoid激活函数得到
Ff(M)=Sigmoid(Conv(Favg,b)) (12) 空间注意:在频率注意力机制之后,本文引入了空间注意力机制,自适应地捕获与听觉相关的重要脑区。如图3(b)所示,对于频率注意力机制的输出特征M′,首先分别进行最大池化和平均池化操作,以捕获特征在不同维度上的显著性,其过程定义为
Favg,(h,w)=1CBC∑c=1B∑b=1M′h,w(c,b) (13) Fmax (14) 再将二者拼接得到新的特征描述为
{\boldsymbol{S}} = {\mathrm{cat}}({{\boldsymbol{F}}_{{\mathrm{avg}},(h,w)}},{{\boldsymbol{F}}_{\max ,(h,w)}}) (15) 最后,空间注意力机制由2维卷积和sigmoid激活函数得到
{F_S}({{\boldsymbol{M}}^{'}}) = {\mathrm{Sigmoid}}({\mathrm{Conv}}({\boldsymbol{S}})) (16) 将得到的空间注意力权重系数 {F_S}({{\boldsymbol{M}}^{'}}) 与特征 {{\boldsymbol{M}}^{'}} 逐元素相乘,最终得到的 {{\boldsymbol{M}}^{''}} ,即为输入信号经过频率-空间注意力机制以后的输出特征。
2.2.3 3D卷积和自适应平均池化
{{\boldsymbol{F}}_2} = {\mathrm{AdaptiveAvgPool}}({\mathrm{Conv}}({{\boldsymbol{M}}_{{\mathrm{FS}}}})) (17) 式(1)中,{{\boldsymbol{M}}_{{\mathrm{FS}}}}为经过3个FSA-3DCNN模块后得到的特征。
2.3 特征融合与分类层
本文将时空注意分支提取到的时空特征 {{\boldsymbol{F}}_1} 和频空注意分支提取到的频空特征 {{\boldsymbol{F}}_2} 进行拼接,从而得到一个新的特征向量{\boldsymbol{F}}
{\boldsymbol{F}} = \left[ {{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2}} \right] (18) 然后,本文使用FC层得到最终的二分类结果
p = {\boldsymbol{wF}} + {\boldsymbol{b}} (19) 其中, {\boldsymbol{w}} 和 {\boldsymbol{b}} 分别是FC层的权重和偏差, p 表示决策窗口的预测概率。最后,应用2元交叉熵损失函数来监督网络训练。
以KUL数据集的1 s决策窗口为例,时空注意网络(Temporal Spatial Attention network, TSAnet)、频空注意网络(Frequency Spatial Attention network, FSAnet)和特征融合和分类层中各层的输出见表1。
表 1 时空、频空特征提取分支和特征融合与分类层中各层的输出值分支 层 输入特征维度 输出特征维度 时空特征提取分支(TSAnet) 卷积块(Convolutional Block) 1 \times 64 \times 128 64 \times 1 \times 64 高阶特征交互模块(HFI) 64 \times 1 \times 64 64 \times 1 \times 64 2维卷积层 64 \times 1 \times 64 4 \times 1 \times 64 自适应平均池化层 4 \times 1 \times 64 4 \times 1 \times 1 全连接层 4 \times 1 \times 1 4 频空特征提取分支(FSAnet) FSA-3DCNN 1 \times 5 \times 32 \times 32 128 \times 5 \times 4 \times 4 3维卷积层 128 \times 5 \times 4 \times 4 4 \times 5 \times 4 \times 4 自适应平均池化层 4 \times 5 \times 4 \times 4 4 \times 1 \times 1 \times 1 全连接层 4 \times 1 \times 1 \times 1 4 特征融合与分类层 拼接(Concat) 8 8 全连接层 8 2 3. 实验
3.1 AAD数据集
(1)KUL数据集:该数据集包括16名听力正常参与者的EEG数据,语音刺激以两种方式传递:一种是双耳分听,每只耳朵分配一个扬声器;另一种是通过头部相关传递函数(Head Related Transfer Functions, HRTF) 过滤后呈现,以模拟从受试者左侧90°和右侧90°的语音。KUL数据集其详细信息见表2,更多详细信息可参考文献[27]。
表 2 KUL, DTU数据集上4种短决策窗口的各种模型的平均AAD准确率(%)数据集 模型 样本时长(s) 0.1 0.2 0.5 1.0 KUL CNN[14] 74.3 78.2 80.6 84.1 STAnet[17] 80.8 84.3 87.2 90.1 RGCnet[28] 87.6 88.9 90.1 91.4 mRFInet[29] 87.4 89.7 90.8 92.5 DBPNet[30] 87.1 89.9 92.9 95.0 TSF-AADNet(本文) 91.8 94.1 96.3 98.3 DTU CNN[14] 56.7 58.4 61.7 63.3 STAnet[17] 65.7 68.1 70.8 71.9 RGCnet[28] 66.4 68.4 72.1 76.9 mRFInet[29] 65.4 68.7 72.3 75.1 DBPNet[30] 75.1 78.9 81.9 83.9 TSF-AADNet(本文) 81.1 83.5 86.1 88.8 (2)DTU数据集:该数据集使用Biosemi系统以512 Hz的采样率收集了18名受试者的64通道EEG数据,语音刺激包括在消声室或混响室中同时说话的男性和女性母语说话者的语音。两个语音流的方向为±60°。其详细信息见表3,更多详细信息可参考文献[28]。
表 3 实验中使用的脑电图数据集KUL, DTU的详细信息数据集 受试者个数 刺激语言 每个受试者的试验持续时间(min) 总时长(h) KUL 16 佛兰德语 48 12.8 DTU 18 丹麦语 50 15.0 3.2 基线模型
本文提出的TSF-AADNet与以下基线模型进行了比较:
CNN[14]:一种用于脑电信号听觉注意解码的卷积神经网络。
基于神经网络的听觉空间注意解码(a SpatioTemporal Attention network for decoding auditory spatial attention from EEG, STAnet)[17]:时空注意力网络提取脑电信号的时空特征。
基于脑电图的听觉注意检测的高效递归门控卷积网络(an efficient Recursive Gated Convolutional network for EEG-based auditory attention detection, RGCnet)[29]:递归门控卷积网络将2阶特征相互作用扩展到更高阶。
基于脑电信号的多尺度递归特征交互听觉注意检测(Multi-Scale Recursive Feature Interaction for Auditory Attention Detection Using EEG Signals, mRFInet)[30]:一种轻量级的多尺度递归特征交互网络mRFInet,通过递归设计将远程空间特征提取和高阶特征交互相结合,有效地提取了AAD脑电特征表征。
一种基于时频融合的双分支并行网络(Dual-Branch Parallel Network with temporal-Frequency fusion for auditory attention detection, DBPNet)[30]:时频融合网络,通过时间和频率注意分支分别提取脑电信号的时间特征和谱空间特征。
3.3 数据预处理
为了客观全面比较本文所提的TSF-AADNet模型性能,对KUL和DTU数据集分别应用了特定的预处理步骤。
对于KUL数据集,将EEG数据重新参考乳突电极的平均响应,在0.1 Hz和50 Hz之间进行带通滤波,随后下采样至128 Hz。此外,将每个通道的脑电信号归一化以确保每次试验的平均值和单位方差均为0。
对于DTU数据集,将EEG数据进行滤波以去除50 Hz线性噪声和谐波,通过联合去相关消除眼睛伪影,并将EEG数据重新参考乳突电极的平均响应。最后,将EEG数据下采样至64 Hz。
本文分别在0.1 s, 0.2 s, 0.5 s和1 s这4种短时决策窗口下,对所提模型的性能进行了评估。
3.4 网络配置
本文在AAD中的主要任务是确定声音的方向(左或右),本质上是一个2元分类问题。结果准确度定义为正确分类结果除以分类总数的百分比。
本文通过减少损失值来改进模型参数,并使用来自测试集的准确率来评估模型的有效性。以KUL中的1 s决策窗口为例来描述网络配置。经过数据预处理后,每个受试者共有5 752个决策窗口,其中用于训练的决策窗口为4 658个,用于测试的决策窗口为576个。
对于TSAnet, 1 s脑电信号表示为 {\boldsymbol{E}} \in {\mathbb{R}^{64 \times 128}} ,表示具有128个样本和64个通道。首先,通过CSP算法增强原始脑电信号的信噪比。然后,将CSP增强后的脑电信号的维度扩展为 {{\boldsymbol{E}}_{{\mathrm{ts}}}} \in {\mathbb{R}^{1 \times 64 \times 128}} ,再通过时空卷积块提取脑电信号的时空特征,将提取到的时空特征通过高阶特征交互模块(HFI)实现EEG特征之间的高阶交互,可以得到 {{\boldsymbol{P}}_n} \in {\mathbb{R}^{64 \times 1 \times 64}} 的编码数据,然后再通过卷积和自适应平均池化得到时空特征表示 {{\boldsymbol{F}}_1} \in {\mathbb{R}^{1 \times 4}} 。
对于FSAnet,同样通过CSP算法增强原始脑电信号的信噪比。然后,提取5个频带的DE特征,利用各个电极的空间位置信息,得到5个2D频域平面图 {{\boldsymbol{M}}^{\mathrm{S}}} \in {\mathbb{R}^{1 \times 5 \times 32 \times 32}} 。再将其通过3个FSA-3DCNN模块,得到带有频率和空间注意的频空表示 {{\boldsymbol{M}}_{{\mathrm{FS}}}} \in {\mathbb{R}^{128 \times 5 \times 4 \times 4}} ,然后,通过3D卷积和自适应平均池化得到频空特征表示 {{\boldsymbol{F}}_2} \in {\mathbb{R}^{1 \times 4}} 。
最后,在特征融合和分类模块中,将得到的时空特征 {{\boldsymbol{F}}_1} 和频空特征 {{\boldsymbol{F}}_2} 拼接得到融合特征 {\boldsymbol{F}} \in {\mathbb{R}^{1 \times 8}} ,再通过FC层进行二分类得到左或右的解码结论。
4. 结果
4.1 听觉注意力分析
为评估本文提出的模型在AAD中的解码性能,将TSF-AADNet模型分别在KUL和DTU数据集的0.1 s, 0.2 s, 0.5 s和1 s这4个短时决策窗口上进行实验,每个受试者的实验结果如图4所示,可以看出TSF-AADNet在KUL和DTU数据集上均表现出强大的性能。短决策窗口下,TSF-AADNet模型在KUL数据集上的解码准确率分别为91.8%(0.1 s, SD: 4.64%), 94.1%(0.2 s, SD: 4.36%),96.3%(0.5 s, SD: 3.55%)和98.3%(1 s, SD: 2.07%),在DTU数据集上的解码准确率分别为81.1%(0.1 s, SD: 6.59%), 83.5%(0.2 s, SD: 6.75%), 86.1%(0.5 s, SD: 6.70%)和88.8%(1 s, SD: 6.75%),它们的准确性随着决策窗口的延长而不断增加,这与已有研究结论一致。
4.2 消融实验
为了验证模型中不同模块的有效性,本文分别在KUL和DTU数据集上进行了消融实验。以1 s决策窗口为例,通过对两个没有特征融合的单分支网络的消融实验,验证了同时集成时-空-频特征的重要性。同时,为了研究单分支网络中每个模块对所提出的TSF-AADNet模型性能增强的贡献,本文也将针对单分支网络进行消融分析。
双分支特征融合网络的消融:为了验证本文所提出的双分支特征融合网络的有效性,通过比较两个没有特征融合的单分支网络:时空特征提取分支TSAnet和频空特征提取分支FSAnet来综合评价TSF-AADNet。这两个网络都是在与之前实验相同的条件下进行评估的,消融实验结果如图5所示。
在KUL数据集上,TSAnet的AAD准确率达到了96.1%(SD:3.46%),FSAnet的AAD准确率为93.1%(SD:4.66%)。在DTU数据集上,TSAnet的AAD准确率为87.3%(SD:6.32%),FSAnet的AAD准确率为87.0%(SD:6.09%)。值得注意的是,TSF-AADNet在KUL数据集上的AAD准确率高达98.3%(SD: 2.07%),在DTU数据集上也达到了88.8%(SD: 6.75%)。TSF-AADNet与这些单分支网络的对比分析表明,本文提出的TSF-AADNet模型有效地融合了时-空-频特征,提高了AAD的解码性能。
时空分支的消融:在第1次消融实验中,为了验证高阶特征交互模块的有效性,从TSAnet中剔除HFI模块,采用自注意机制代替,命名为M1。在第2次消融实验中,将TSAnet中的时空卷积块替换为普通2维卷积层,命名为M2,消融实验结果如图6所示。
在KUL数据集上,M1的平均准确率为93.3%(SD:3.74%),M2的平均准确率为91.8%(SD:4.62%)。在DTU数据集上,M1的平均准确率为85.1%(SD:6.17%),M2的平均准确率为78.3%(SD:4.48%)。可以看到,无论是在KUL还是DTU数据集上,TSAnet均表现出最好的性能,结果表明,高阶特征交互模块和时空卷积模块作出了显著贡献。
频空分支的消融:为分析所提出的FSA-3DCNN模块中各部分的贡献,对FSA-3DCNN进行了消融实验,通过逐一评估每个部分的效果,以验证3DCNN和融合注意力机制的有效性。具体分析包括以下4种情况:无注意力机制(3DCNN);仅使用频率注意力机制(FA-3DCNN);仅使用空间注意力机制(SA-3DCNN);使用频率-空间注意力机制(FSA-3DCNN)。图7展示了不同注意力机制下的EEG听觉注意力解码性能。
在KUL数据集上,3DCNN的解码准确率为91.8%(SD:4.62%),而FA-3DCNN的解码准确率为92.7%(SD:4.37%),SA-3DCNN的解码准确率为92.2%(SD:4.91%),FSA-3DCNN的解码准确率为93.1%(SD:4.66%)。DTU数据集上,3DCNN的解码准确率为85.1%(SD:5.96%),FA-3DCNN的解码准确率为86.4%(SD:5.91%),SA-3DCNN的解码准确率为86.1%(SD:6.05%),FSA-3DCNN的解码准确率为87.0%(SD:6.09%)。这些结果表明,在3DCNN中增加注意力机制,模型能更有效地提取脑电信号中与听觉相关的频率和空间信息。
4.3 对比实验
为了评估所提出模型AAD解码性能,本文将TSF-AADNet与其他5个AAD分类模型分别在KUL和DTU 的4个短时决策窗口下进行了比较,结果如表2所示。本文对现有模型的结果进行复现,对未开源的模型引用相应论文的结果。
在KUL数据集上,TSF-AADNet在不同的短时决策窗口下表现出优越的性能,0.1 s内相对于CNN, STAnet, RGCnet, mRFInet和DBPNet分别提升了17.5%, 11.0%, 4.2%, 4.4%和4.7%,1 s内分别提升了14.2%, 8.2%, 6.9%, 5.8%和3.3%。在DTU数据集上,TSF-AADNet在0.1 s内相对于CNN, STAnet, RGCnet, mRFInet和DBPNet分别提升了24.4%, 15.4%, 14.7%, 15.7%和6.0%,1 s内分别提升了25.5%, 16.9%, 11.9%, 13.7%和4.9%。
同时,由表2的实验数据可知,DTU数据集上的AAD性能普遍低于KUL数据集,这一结果与文献[17–19]、文献[28–30]的研究结果一致。这种AAD性能差异可能源于两个数据集在实验设计上的关键区别:首先,DTU数据集中的听觉刺激是分别从左右两侧各60°呈现给受试者[28],而KUL数据集则采用了±90°的刺激呈现[27]。此外,DTU数据集引入了不同水平的房间混响条件,这可能会对大脑皮层跟踪语音流的能力产生干扰,而KUL数据集则是在理想的消声室中呈现听觉刺激给受试者,减少了外部噪声的干扰。这些因素共同作用,导致了两个数据集在AAD任务表现上的差异。
5. 结束语
本文提出了一种新的解码网络TSF-AADNet,它是一种时-空-频多维融合特征的双分支并行网络,通过两个并行的时空和频空特征提取分支实现。本文所提模型的验证评估是在KUL和DTU数据集上进行的,TSF-AADNet模型在KUL数据集的0.1 s决策窗口下,解码准确率为91.8%,与基于CNN的方法和最新的AAD方法(DBPNet)相比,分别提高了17.5%和4.7%,在DTU数据集的0.1 s决策窗口下,解码准确率为81.1%,与基于CNN的方法和最新的AAD方法(DBPNet)相比,分别提高了24.4%和6.0%。结果表明,TSF-AADNet可以在短决策窗口上实现高AAD准确性,可以为听力障碍诊断与康复、神经导向听力设备研发提供参考。
-
表 1 时空、频空特征提取分支和特征融合与分类层中各层的输出值
分支 层 输入特征维度 输出特征维度 时空特征提取分支(TSAnet) 卷积块(Convolutional Block) 1 \times 64 \times 128 64 \times 1 \times 64 高阶特征交互模块(HFI) 64 \times 1 \times 64 64 \times 1 \times 64 2维卷积层 64 \times 1 \times 64 4 \times 1 \times 64 自适应平均池化层 4 \times 1 \times 64 4 \times 1 \times 1 全连接层 4 \times 1 \times 1 4 频空特征提取分支(FSAnet) FSA-3DCNN 1 \times 5 \times 32 \times 32 128 \times 5 \times 4 \times 4 3维卷积层 128 \times 5 \times 4 \times 4 4 \times 5 \times 4 \times 4 自适应平均池化层 4 \times 5 \times 4 \times 4 4 \times 1 \times 1 \times 1 全连接层 4 \times 1 \times 1 \times 1 4 特征融合与分类层 拼接(Concat) 8 8 全连接层 8 2 表 2 KUL, DTU数据集上4种短决策窗口的各种模型的平均AAD准确率(%)
数据集 模型 样本时长(s) 0.1 0.2 0.5 1.0 KUL CNN[14] 74.3 78.2 80.6 84.1 STAnet[17] 80.8 84.3 87.2 90.1 RGCnet[28] 87.6 88.9 90.1 91.4 mRFInet[29] 87.4 89.7 90.8 92.5 DBPNet[30] 87.1 89.9 92.9 95.0 TSF-AADNet(本文) 91.8 94.1 96.3 98.3 DTU CNN[14] 56.7 58.4 61.7 63.3 STAnet[17] 65.7 68.1 70.8 71.9 RGCnet[28] 66.4 68.4 72.1 76.9 mRFInet[29] 65.4 68.7 72.3 75.1 DBPNet[30] 75.1 78.9 81.9 83.9 TSF-AADNet(本文) 81.1 83.5 86.1 88.8 表 3 实验中使用的脑电图数据集KUL, DTU的详细信息
数据集 受试者个数 刺激语言 每个受试者的试验持续时间(min) 总时长(h) KUL 16 佛兰德语 48 12.8 DTU 18 丹麦语 50 15.0 -
[1] CHERRY E C. Some experiments on the recognition of speech, with one and with two ears[J]. The Journal of the Acoustical Society of America, 1953, 25(5): 975–979. doi: 10.1121/1.1907229. [2] WANG Deliang. Deep learning reinvents the hearing aid[J]. IEEE Spectrum, 2017, 54(3): 32–37. doi: 10.1109/MSPEC.2017.7864754. [3] ZHANG Malu, WU Jibin, CHUA Yansong, et al. MPD-AL: An efficient membrane potential driven aggregate-label learning algorithm for spiking neurons[C]. The 33rd AAAI Conference on Artificial Intelligence, Hawaii, USA, 2019: 1327–1334. doi: 10.1609/aaai.v33i01.33011327. [4] MESGARANI N and CHANG E F. Selective cortical representation of attended speaker in multi-talker speech perception[J]. Nature, 2012, 485(7397): 233–236. doi: 10.1038/nature11020. [5] DING Nai and SIMON J Z. Emergence of neural encoding of auditory objects while listening to competing speakers[J]. Proceedings of the National Academy of Sciences of the United States of America, 2012, 109(29): 11854–11859. doi: 10.1073/pnas.1205381109. [6] O'SULLIVAN J A, POWER A J, MESGARANI N, et al. Attentional selection in a cocktail party environment can be decoded from single-trial EEG[J]. Cerebral Cortex, 2015, 25(7): 1697–1706. doi: 10.1093/cercor/bht355. [7] CASARES A P. The brain of the future and the viability democratic governance: The role of artificial intelligence, cognitive machines, and viable systems[J]. Futrues, 2018, 103(OCT.): 5–16. doi: 10.1016/j.futures.2018.05.002. [8] CICCARELLI G, NOLAN M, PERRICONE J, et al. Comparison of two-talker attention decoding from EEG with nonlinear neural networks and linear methods[J]. Scientific Reports, 2019, 9(1): 11538. doi: 10.1038/s41598-019-47795-0. [9] FUGLSANG S A, DAU T, and HJORTKJÆR J. Noise-robust cortical tracking of attended speech in real-world acoustic scenes[J]. NeuroImage, 2017, 156: 435–444. doi: 10.1016/j.neuroimage.2017.04.026. [10] WONG D D E, FUGLSANG S A, HJORTKJÆR J, et al. A comparison of regularization methods in forward and backward models for auditory attention decoding[J]. Frontiers in Neuroscience, 2018, 12: 531. doi: 10.3389/fnins.2018.00531. [11] DE CHEVEIGNÉ A, WONG D D E, DI LIBERTO G M, et al. Decoding the auditory brain with canonical component analysis[J]. NeuroImage, 2018, 172: 206–216. doi: 10.1016/j.neuroimage.2018.01.033. [12] DE CHEVEIGNÉ A, DI LIBERTO G M, ARZOUNIAN D, et al. Multiway canonical correlation analysis of brain data[J]. NeuroImage, 2019, 186: 728–740. doi: 10.1016/j.neuroimage.2018.11.026. [13] ZWICKE E and FASTL H. Psychoacoustics: Facts and Models[M]. 2nd ed. New York: Springer, 1999. [14] VANDECAPPELLE S, DECKERS L, DAS N, et al. EEG-based detection of the locus of auditory attention with convolutional neural networks[J]. eLife, 2021, 10: e56481. doi: 10.7554/eLife.56481. [15] CAI Siqi, SU Enze, SONG Yonghao, et al. Low latency auditory attention detection with common spatial pattern analysis of EEG signals[C]. The INTERSPEECH 2020, Shanghai, China, 2020: 2772–2776. doi: 10.21437/Interspeech.2020-2496. [16] CAI Siqi, SU Enze, XIE Longhan, et al. EEG-based auditory attention detection via frequency and channel neural attention[J]. IEEE Transactions on Human-Machine Systems, 2022, 52(2): 256–266. doi: 10.1109/THMS.2021.3125283. [17] SU Enze, CAI Siqi, XIE Longhan, et al. STAnet: A spatiotemporal attention network for decoding auditory spatial attention from EEG[J]. IEEE Transactions on Biomedical Engineering, 2022, 69(7): 2233–2242. doi: 10.1109/TBME.2022.3140246. [18] JIANG Yifan, CHEN Ning, and JIN Jing. Detecting the locus of auditory attention based on the spectro-spatial-temporal analysis of EEG[J]. Journal of Neural Engineering, 2022, 19(5): 056035. doi: 10.1088/1741-2552/ac975c. [19] CAI Siqi, SCHULTZ T, and LI Haizhou. Brain topology modeling with EEG-graphs for auditory spatial attention detection[J]. IEEE Transactions on Biomedical Engineering, 2024, 71(1): 171–182. doi: 10.1109/TBME.2023.3294242. [20] XU Xiran, WANG Bo, YAN Yujie, et al. A DenseNet-based method for decoding auditory spatial attention with EEG[C]. The ICASSP 2024–2024 IEEE International Conference on Acoustics, Speech and Signal Processing, Seoul, Korea, Republic of, 2024: 1946–1950. doi: 10.1109/ICASSP48485.2024.10448013. [21] GEIRNAERT S, FRANCART T, and BERTRAND A. Fast EEG-based decoding of the directional focus of auditory attention using common spatial patterns[J]. IEEE Transactions on Biomedical Engineering, 2021, 68(5): 1557–1568. doi: 10.1109/TBME.2020.3033446. [22] SCHIRRMEISTER R T, SPRINGENBERG J T, FIEDERER L D J, et al. Deep learning with convolutional neural networks for EEG decoding and visualization[J]. Human Brain Mapping, 2017, 38(11): 5391–5420. doi: 10.1002/hbm.23730. [23] LAWHERN V J, SOLON A J, WAYTOWICH N R, et al. EEGNet: A compact convolutional neural network for EEG-based brain–computer interfaces[J]. Journal of Neural Engineering, 2018, 15(5): 056013. doi: 10.1088/1741-2552/aace8c. [24] RAO Yongming, ZHAO Wenliang, TANG Yansong, et al. HorNet: Efficient high-order spatial interactions with recursive gated convolutions[C]. The 36th International Conference on Neural Information Processing Systems, New Orleans, USA, 2022: 752. [25] LIU Yongjin, YU Minjing, ZHAO Guozhen, et al. Real-time movie-induced discrete emotion recognition from EEG signals[J]. IEEE Transactions on Affective Computing, 2018, 9(4): 550–562. doi: 10.1109/TAFFC.2017.2660485. [26] CAI Siqi, SUN Pengcheng, SCHULTZ T, et al. Low-latency auditory spatial attention detection based on spectro-spatial features from EEG[C]. 2021 43rd Annual International Conference of the IEEE Engineering in Medicine & Biology Society, Mexico, Mexico, 2021: 5812–5815. doi: 10.1109/EMBC46164.2021.9630902. [27] DAS N, FRANCAR T, and BERTRAND A. Auditory attention detection dataset KULeuven (OLD VERSION)[J]. Zenodo, 2019. doi: 10.5281/zenodo.3997352. [28] FUGLSANG S A, WONG D D E, and HJORTKJÆR J. EEG and audio dataset for auditory attention decoding[J]. Zenodo, 2018. doi: 10.5281/zenodo.1199011. [29] CAI Siqi, LI Jia, YANG Hongmeng, et al. RGCnet: An efficient recursive gated convolutional network for EEG-based auditory attention detection[C]. The 2023 45th Annual International Conference of the IEEE Engineering in Medicine & Biology Society, Sydney, Australia, 2023: 1–4. doi: 10.1109/EMBC40787.2023. 10340432. [30] LI Jia, ZHANG Ran, and CAI Siqi. Multi-scale recursive feature interaction for auditory attention detection using EEG signals[C]. 2024 IEEE International Symposium on Biomedical Imaging, Athens, Greece, 2024: 1–5. doi: 10.1109/ISBI56570.2024.10635751. -