高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

借助语音和面部图像的双模态情感识别

薛珮芸 戴书涛 白静 高翔

潘生根. 自由空间中的广义柱体并矢格林函数的计算[J]. 电子与信息学报, 1985, 7(3): 171-179.
引用本文: 薛珮芸, 戴书涛, 白静, 高翔. 借助语音和面部图像的双模态情感识别[J]. 电子与信息学报, 2024, 46(12): 4542-4552. doi: 10.11999/JEIT240087
Pan Shenggen. COMPUTATION OF DYADIC GREEN S FUNCTIONS FOR GENERALIZED CYLINDERS IN FREE SPACE[J]. Journal of Electronics & Information Technology, 1985, 7(3): 171-179.
Citation: XUE Peiyun, DAI Shutao, BAI Jing, GAO Xiang. Emotion Recognition with Speech and Facial Images[J]. Journal of Electronics & Information Technology, 2024, 46(12): 4542-4552. doi: 10.11999/JEIT240087

借助语音和面部图像的双模态情感识别

doi: 10.11999/JEIT240087
基金项目: 山西省青年基金 (20210302124544),山西省应用基础研究计划(201901D111094)
详细信息
    作者简介:

    薛珮芸:女,讲师,研究方向为信号处理

    戴书涛:男,硕士生,研究方向为信号处理

    白静:女,教授,研究方向为信号处理

    高翔:男,硕士生,研究方向为信号处理

    通讯作者:

    薛珮芸 xuepeiyun@tyut.edu.cn

  • 中图分类号: TN911.7; TP391.41

Emotion Recognition with Speech and Facial Images

Funds: Shanxi Youth Fundation (20210302124544), The Applied Basic Research Program of Shanxi Province (201901D111094)
  • 摘要: 为提升情感识别模型的准确率,解决情感特征提取不充分的问题,对语音和面部图像的双模态情感识别进行研究。语音模态提出一种结合通道-空间注意力机制的多分支卷积神经网络(Multi-branch Convolutional Neural Networks, MCNN)的特征提取模型,在时间、空间和局部特征维度对语音频谱图提取情感特征;面部图像模态提出一种残差混合卷积神经网络(Residual Hybrid Convolutional Neural Network, RHCNN)的特征提取模型,进一步建立并行注意力机制关注全局情感特征,提高识别准确率;将提取到的语音和面部图像特征分别通过分类层进行分类识别,并使用决策融合对识别结果进行最终的融合分类。实验结果表明,所提双模态融合模型在RAVDESS, eNTERFACE’05, RML三个数据集上的识别准确率分别达到了97.22%, 94.78%和96.96%,比语音单模态的识别准确率分别提升了11.02%, 4.24%, 8.83%,比面部图像单模态的识别准确率分别提升了4.60%, 6.74%, 4.10%,且与近年来对应数据集上的相关方法相比均有所提升。说明了所提的双模态融合模型能有效聚焦情感信息,从而提升情感识别的准确率。
  • 物联网(Internet of Things, IoT)通过网络技术和各类信息传感器,按照协定方式将能够被独立标识的机器、人和物等按需求连接起来,进行信息传输和协同交互,实现“万物互联”[1]。传感器作为物联网系统的神经末梢,获取所需外界数据信息,是将数字世界和物理世界连接的核心。随着物联网应用范围的拓展,传感器级的安全问题越来越受到重视。一方面,传感器节点通常部署在无人值守的地理环境,只有很少或没有安全保护[2],存在信息泄露的安全隐患。另一方面,传感器附件配备可用内存较少,计算能力有限[3],一个典型的传感器附件可能只备用512 B的内存,诸如高级加密标准(Advanced Encryption Standard, AES)之类的传统加密技术无法使用。如何以较小的计算和存储开销,实现传感器产生数据的安全、可信传递,已经成为物联网安全的迫切需求。

    物理不可克隆函数(Physical Unclonable Function, PUF)发生器可利用物理结构的随机、固有属性为物联网安全提供低开销、高可靠性的解决方案。Pappu等人[4]依据光学操作原理实现物理单向函数以产生能够满足唯一标识功能的激励响应对(Challenge Response Pairs, CRP),最早提出PUF的概念。随之发展到目前以硅基为主的PUF发生器,它利用硅基电路制造过程存在的微小工艺偏差产生具有唯一性、随机性和不可克隆性的硬件指纹,包括仲裁器PUF[5]、环形振荡器PUF[6]、静态随机存取存储器PUF(Static Random Access Memory PUF, SRAM PUF)[7,8]和触发器PUF[9]等。然而将这些硅基PUF直接集成到资源受限的传感器节点将会增加设计难度和额外成本[10]。学者已着手探索利用已有的传感器组件实现更低成本PUF发生器的研究[11]。Rosenfeld等人[12]利用传感器半透明底层所涂深色物质不均匀、光学透射率不一致,由此导致每个芯片光电二极管的光学灵敏度不尽相同等特点,提出一种消除传感器与加密技术分离的架构,但是该架构仍需利用传统的PUF将输入激励转换为初始向量以进行下一步工作,增加了额外的电路开销。Dey等人[13]证明加速度计具有独特的指纹,对80个独立的加速度计芯片以及25个Android手机和2个平板电脑内部加速度计的测试数据表明这些指纹的确存在。Aysu等人[14]利用陀螺仪的输出构建不可预测的PUF响应,但存在无法重复生成所需激励响应对的问题。Labrado等人[15]对压电传感器建模,分析得到交流电压相同,由于制造过程的偏差,不同传感器的等效阻抗存在差异,可利用此差异产生所需PUF数据,但该设计需要外加交流电压源。

    气敏传感技术的发展推动了物联网在气体(油)等管理领域的广泛应用。通常将类型和数量众多的气敏传感器集成于物联网系统,安置在液化气储藏库、暖通市场、交通运输等场所。由于目前众多气敏传感器之间没有采取有效技术将其特征区分,不具备“一物一密”特性,所以当某观察点发生异常时难以精准判断哪个气敏传感器“报警”,也就是说难以找到气体(油)的泄露源头,耽误最佳抢修时间;同时也存在传输数据被盗或篡改数据等恶意破坏事故。鉴此,本文针对物联网智能体系中感知节点的安全性难题,拟利用气敏传感器识别到的外界环境变化,从中提取物理特征信息,设计高稳态PUF发生器,为传感器提供定位标签,实现物联网系统自底向上的安全防护。

    气敏传感器能将检测到的气体成分和浓度大小转换为电信号,但由于其制造过程的随机工艺偏差使得输出电信号值偏离理论值,因此可以利用气敏传感器制备工艺偏差构建气敏传感PUF发生器。气敏传感器检测系统主要由3部分组成:气体成分特异性识别和浓度识别的半导体气敏材料、非电信号转换为电信号的敏感组件和记录信号的辅助仪器,结构如图1所示。半导体气敏材料为纳米材料,具有高比表面积,气体与材料的接触面积大,为气体分子吸附提供更多的活性位点,有助于气敏性能的提高。

    图 1  气敏传感器检测系统结构示意图

    静电喷雾沉积(Electrostatic Spray Deposition, ESD)是制备纳米材料的常用方法[16]。泰勒锥的形成和射流鞭动是两个随机性很强的静电喷雾关键环节。泰勒锥表面是液相和气相的边界,环境气体的快速吸附和溶剂蒸发两个过程并存,因此,不可避免地会引起泰勒锥内部扰乱,影响泰勒锥的形状[17]。射流鞭动是静电喷雾时聚合物喷射流的运动轨迹,呈复杂的3维非直线型“鞭动”。刚开始喷的丝是直的,随后发生弯曲、不稳定。Shin等人[18]针对射流的不稳定阶段提出鞭动模型,用线性不稳定性分析射流鞭动的发生。在已知流体性质和工艺参数条件下,给出式(1)扰动系数的数学方程

    Γ(E,Q)=ln[A(s)A(0)]=S0ω(h,E,σ)Qπh2dh
    (1)

    其中,Γ(E, Q)为不稳定放大因子,A(s)为振幅,s为向下移动距离,ω为增长速率,h为射流半径,Q为流率,σ为射流表面电荷密度。

    纳米材料中纤维表面对气体分子的吸附能力赋予每个传感器独有的气敏特性。由于与喷雾效果相关的液体黏度、湿度、温度等参数在实验过程中不可避免地发生变化,导致射流振动不完全可控,致使纳米纤维的直径大小以及取向的排列发生差异。聚合物溶液通过电场到达收集板,从喷射口喷射出无数方向不定、粗细不一的纤维层层堆叠,导致每块纤维区域密度都具有随机性和唯一性。因此,每块区域吸附气体能力不同,可利用此特征得到随机的、不可克隆的气敏传感PUF发生器。

    采用ESD技术制备纳米材料,装置如图2所示,其具体制备过程如下:将Pd(NO3)2·2H2O (5 mg), SnCl4·5H2O (701 mg)和聚乙烯吡咯烷酮 (1200 mg)溶解于二甲基甲酰胺 (5 ml)和乙醇 (5 ml)混合溶液中,在室温下搅拌6 h,使溶液均匀;将其灌入注射器,固定在推进泵上;将高压电源的阳极连接注射器喷嘴,阴极连接接地的收集板,阴阳极距离保持15 cm;在16 kV高压电场作用下,注射器喷头开始喷射纤维材料;将纤维材料放入马弗炉,在空气氛围中以1 ℃/min的加热速率至600 ℃,并保持2 h,然后冷却。

    图 2  静电喷雾装置示意图

    传感器一般分为内热式和旁热式两种结构。旁热式气敏器件的氧化铝陶瓷管内放置高阻加热丝,陶瓷管外涂梳状金电极,再在金电极外涂气敏半导体材料。这种结构克服了内热式器件热容量小、易受环境气流影响和测量不稳定的缺点,明显提高器件稳定性。具体制作过程如下:将制备好的纳米材料和去离子水按一定比例混合成糊状物;将糊状物涂到两端固定铂金线的氧化铝管上,也同样在空气氛围中以1 ℃/min加热速率至600 ℃,保持2 h;待冷却后取出。在氧化铝陶瓷管轴心穿入一根直径为0.05 mm,长度为10.5 mm细合金加热丝,用于加热;将加热丝和用作测量电极的铂金线焊在传感器基座上,即完成旁热式气敏器件制备。传感器如图3所示。为使传感器具有更好的稳定性和重复性,还需将其在300 ℃环境温度下老化2~7 d。

    图 3  传感器示意图

    为完成传感器响应提取,搭建如图4所示气敏传感PUF发生器测试平台,由测试腔、气敏单元、蒸发台、推进泵、流量计等组成。在测试过程中,开启阀门1~4;将安装有8个气敏传感器(作为1个阵列)的电路放入测试腔,并封闭;为气敏单元电热丝提供4.5 V直流电源。用数据采集仪(如自带信号采集软件的安捷伦34970 A)观测时间-电阻曲线,待曲线平稳,即传感器已经进入准稳态;用微量进样器抽取一定量目标物的液体,通过推进泵将液体注射到蒸发台。由于蒸发台温度达100 ℃,液体将快速气化,并均匀扩散。同时,数据采集仪实时记录8个气敏传感器电阻值变化。待传感器电阻值稳定,推进泵停止推进,使空气重新充满测试腔。如此交替,可得到传感器阵列对一定浓度目标气体响应性能。

    图 4  测试平台示意图

    由于气敏传感器制备工艺的随机偏差,采集到的电阻值具有唯一性。将上述数据利用随机阻值多位平衡算法[15]进行处理。其过程如下:将3个传感器组合为1个传感器簇,比较两个传感器簇总和电阻的大小,结果用1位二进制数表示。如果第1个簇的阻值和较大,则结果为1,反之为0。从8个传感器中选出3个作为1簇,共有C38,即56种选择;再从中任选两簇进行阻值和比较运算,则产生C256,即128种可能性。簇选择和比较运算将不同传感器测量值随机比较,进而得到128位PUF响应。该响应不会偏向任意某个传感器,从而达到平衡。

    具体数据生成方法使用8位随机阻值平衡算法,调用该算法16次生成128位响应,算法的伪代码如表1所示。算法假定8位子集包含在数组bit中,数组v包含8个气敏传感器关联的电阻值,传感器0的值位于数组v位置0,传感器1的值位于数组v位置1,依此类推。数组lef和r表示被选择的两簇传感器位置,取出数组v中与位置对应的电阻值,作阻值和比较运算。之后,place的值增加1,也就是将被选择的每个传感器位置都加1,以确定在随后的比较中使用哪几个传感器。进行8次比较后,一个过程完成,生成8个响应位。之后,改变lef与r的初始值以生成后续8位子集。

    表 1  8位随机阻值平衡算法伪代码
     (1) int bit[place]
     (2) int lef[3]
     (3) int r[3]
     (4) double v[8]
     (5) i=0
     (6) do {lsum=v[(i+lef[0])mod 8]+v[(i+lef[1])mod 8]+v[(i+lef[2])   mod 8]
     (7) rsum=v[(i+r[0]) mod 8]+v[(i+r[1]) mod 8]+v[(i+r[2])mod 8]
     (8) if lsum>rsum
     (9) then bits[palce]=1
     (10) else bits[place]=0
     (11) place=place+1}
     (12) while(i<8)
     (13) return
    下载: 导出CSV 
    | 显示表格

    主要包括3部分:(1)材料表征;(2)偏差特性分析;(3)PUF发生器性能分析。用扫描电子显微镜(Scanning Electron Microscope, SEM)对材料形貌进行表征,观察纳米材料外观结构和形貌;用X射线衍射分析仪(X-Ray Diffraction, XRD)测定并分析产物物相结构;搭建测试平台提取传感器偏差。采用唯一性、可靠性和随机性3种常用性能指标评估输出响应。

    SEM表征纳米材料为颗粒状氧化物形貌,如图5所示。纳米颗粒的大小没有规律地散落分布,局部形成团聚,分布具有高度随机性。在不同分辨率情况下都可以观察到氧化物颗粒形态各异,每一个区域与气体分子的接触范围都不相同,是传感器PUF发生器差异性的原因所在。

    图 5  不同分辨率下的SEM表征

    图6为Pd-SnO2纳米材料样品经600 ℃高温烧结后的XRD图谱。可以发现,(110), (101), (200), (211), (220), (310), (321)等的衍射峰,与SnO2的JCPDS(Joint Committee on Powder Diffraction Standards)标准卡片(PDF#77-0447)峰型吻合。Pd的掺杂并没有改变SnO2的晶体结构,没有出现PdO的特征峰,其原因在于制备的纳米材料中PdO占比很小。

    图 6  XRD表征

    偏差特性表示不同传感器对同一气体激励源的偏差情况。用安捷伦多路数据采集仪实时记录原始电信号,反映传感器电阻随测试腔中甲醛气体浓度变化而变化的信息。传感器的响应定义为[19]

    R=Ra/Rg
    (2)

    其中,RaRg为气敏传感器在空气和目标气体的电阻值。利用式(2)计算传感器响应随时间变化的趋势,如图7所示。在200 ppm甲醛气体浓度下,对所制备的Pd-SnO2气敏传感器进行两次循环。可以发现,在响应曲线较为平稳阶段,传感器A和传感器B表现出偏差特性,RARB变化趋势一致,且RA>RB。有效降低阻值比较时响应翻转现象出现的可能性,提高输出响应的稳定性。

    图 7  传感器响应
    4.3.1   随机性

    随机性表示PUF发生器输出数据中逻辑0和逻辑1分布情况。在理想情况下,逻辑0和逻辑1的概率应相同,即随机性为100%。按式(3)计算[20]

    Randomness=(1|12P(r=1)|)×100%
    (3)

    其中,r为输出响应,P为输出响应中1的概率。实验制备了50组气敏传感PUF发生器样本,测试了6400位二进制响应。其中,“0”的数量为3138位,“1”的数量为3262位,则得该PUF发生器的随机性为98.06%,如图8所示。

    图 8  随机性概率分布
    4.3.2   唯一性

    唯一性表示多个设备对同一激励的响应区分度,通过片间汉明距离(Hamming Distance, HD)计算。在理想情况下,唯一性接近50%。按式(4)计算[20]

    Uniqueness=2k(k1)k1i=1kj=i+1HD(Ri,Rj)n×100%
    (4)

    其中,k为PUF发生器的数量,RiRj分别为第i和第j个PUF发生器的输出响应,HD(Ri, Rj)为输出响应的汉明距离,则得该PUF发生器的唯一性为49.04%,接近理想值50%,如图9所示。

    图 9  汉明距离分布
    4.3.3   可靠性

    可靠性表示PUF发生器在给定输入激励始终产生正确响应的可能性。理想情况下,可靠性为100%,这意味着PUF发生器将始终产生正确的响应。按式(5)计算n位响应的可靠性[20]

    Realiablty=100%1mmt=1HD(Ru,Rv)n×100%
    (5)

    其中,m为同一激励下测量的次数,n为响应数据的位数,Ru为选取的参考响应数据,Rv为第v次测量的响应数据。在4.2 ~4.9 V电压范围内,以0.1 V为增量,以4.6 V为参考点,选取5个PUF发生器样本进行测试,统计结果如图10所示。可以发现,随着电压偏离参考点,其可靠性出现下降的总体趋势,具备PUF的典型特征。

    可靠性还反映在一定时间内响应的变化情况。在常温常压下,选取5个PUF发生器样本进行400 s连续测试。用每个PUF发生器的第1个响应作参考响应,统计结果如图11所示。可以发现,前90 s的可靠性保持在100%,之后的310 s,也保持95%以上。

    图 10  不同电压下的可靠性
    图 11  400 s内的可靠性

    表2为与其他类型PUF发生器之间的性能比较。所设计的PUF发生器随机性为98.06%,可靠性为97.85%,唯一性为49.04%。

    表 2  与相关文献的比较结果(%)
    文献PUF类型响应机制描述唯一性可靠性
    仲裁器[5]硅PUF利用时延差异产生响应49.8892.88
    SRAM[8]硅PUF利用SRAM单元上电差异产生响应49.697.86
    能量收集器[11]传感器PUF利用太阳能电池对光强的偏差输出产生响应92.97
    MEMS传感[14]传感器PUF利用陀螺仪的输出产生响应42.6492.17
    压电传感器[15]传感器PUF利用压电传感器对电压源的偏差输出产生响应96.07
    本文传感器PUF利用气敏传感器对气体感应偏差产生响应49.0497.85
    下载: 导出CSV 
    | 显示表格

    本文所提基于气敏传感器的高稳态物理不可克隆函数发生器设计方案将感知器件和PUF发生器有效结合起来,通过分析传感器制造过程的随机偏差,测试多组外部激励下的传感器响应,利用随机阻值多位平衡算法生成高稳态PUF发生器数据,依靠传感器组件而不需要设计专用PUF电路模块,有效减少资源的开销。实验测试结果表明,基于气敏传感器的PUF发生器,在可靠性、随机性和唯一性上均有较理想的特性,可为解决极端资源受限系统的高安全性问题提供解决途径,为物联网的发展提供安全保障。

  • 图  1  双模态情感识别模型总体结构

    图  2  对数梅尔频谱图提取流程

    图  3  MCNN结构

    图  4  RHCNN网络结构

    图  5  并行注意力机制

    图  6  决策融合算法

    图  7  语音模型混淆矩阵

    图  8  面部图像模型混淆矩阵

    图  9  双模态混淆矩阵

    图  10  不同模块对模型性能的有效性验证

    图  11  不同数据量对模型性能的影响

    表  1  语音模型各类情感识别结果(%)

    类别 RAVDESS RML eNTERFACE’05
    P R S F1 P R S F1 P R S F1
    中性 83.22 87.94 98.84 85.52
    平静 86.94 88.35 97.94 87.64
    快乐 79.86 97.46 97.20 87.79 78.12 92.59 95.62 84.75 95.66 95.94 99.12 95.80
    悲伤 80.46 78.64 97.04 79.56 91.95 78.82 98.47 84.88 94.59 90.27 99.01 92.38
    愤怒 87.03 84.62 97.93 85.80 96.09 94.51 99.25 95.29 84.44 87.99 96.85 86.18
    恐惧 85.40 91.06 97.65 88.14 83.43 82.51 96.80 82.97 85.15 88.68 96.90 87.36
    厌恶 90.66 83.61 98.41 87.00 86.50 87.37 97.07 86.93 91.83 93.68 98.30 92.75
    惊讶 94.31 82.30 99.19 87.89 93.30 94.27 98.60 93.78 92.15 85.67 98.47 88.79
    下载: 导出CSV

    表  2  语音模态已有方法与本文模型在准确率上的对比(%)

    数据集 CNN-Transformer[18] 2D Feature
    Extration+
    SVM[19]
    CNN-BiLSTM[20] CNN-X[21] 3D-CNN[22] DCNN-GWO[23] Auto-encoder+
    SVM[24]
    Multi-label model[25] 本文
    方法
    RAVDESS 82.0 81.94 84.72 82.99 86.20
    RML 74.07 84.72 88.13
    eNTERFACE’05 88.47 90.40 90.54
    下载: 导出CSV

    表  3  面部图像模型各类情感识别结果(%)

    类别 RAVDESS RML eNTERFACE’05
    P R S F1 P R S F1 P R S F1
    中性 91.95 91.33 99.44 91.64
    平静 95.22 93.44 99.24 94.32
    快乐 94.79 92.54 99.25 93.65 96.84 97.35 99.36 97.10 89.31 88.29 97.82 88.79
    悲伤 94.04 92.21 99.10 93.11 93.22 88.24 98.71 90.66 86.62 84.21 97.57 85.40
    愤怒 92.41 93.59 98.80 92.99 91.67 95.38 98.42 93.48 87.61 89.68 97.48 88.63
    恐惧 87.27 92.13 97.95 89.63 91.35 87.56 98.27 89.42 87.04 87.78 97.29 87.41
    沮丧 94.58 96.62 99.09 95.59 93.75 94.74 98.71 94.24 90.42 89.68 97.99 90.81
    惊讶 90.39 87.89 98.66 89.12 90.31 94.15 97.96 92.19 87.01 86.75 97.49 86.88
    下载: 导出CSV

    表  4  面部图像模态经典网络与本文结果对比(%)

    数据集 方法 A R S F1
    RAVDESS ResNet-34[26] 88.37 88.64 98.34 88.19
    ShuffleNetV2[27] 82.03 82.06 97.43 81.60
    MobileNetV2[28] 84.03 84.46 97.71 83.86
    本文方法 92.62 92.47 98.94 92.51
    RML ResNet-34[26] 89.29 89.41 97.86 89.27
    ShuffleNetV2[27] 79.55 79.82 95.95 79.24
    MobileNetV2[28] 86.07 86.33 97.22 86.05
    本文方法 92.86 92.90 98.57 92.85
    eNTERFACE’05 ResNet-34[26] 83.30 83.57 96.67 83.28
    ShuffleNetV2[27] 82.13 82.17 96.43 82.04
    MobileNetV2[28] 83.50 83.68 96.70 83.49
    本文方法 88.04 87.98 97.61 87.99
    下载: 导出CSV

    表  5  双模态模型各类情感识别结果(%)

    类别RAVDESSRMLeENTERFACE’05
    PRSF1PRSF1PRSF1
    中性98.6696.7199.9197.67
    平静100.0098.13100.0099.05
    快乐97.5796.5699.6597.0696.9598.9699.3797.9596.5396.5399.0096.53
    悲伤96.3697.9899.4597.1697.2295.6399.4896.4295.5495.2498.5995.39
    愤怒98.1095.3899.7096.7298.9199.4599.7999.1895.1894.8398.4194.96
    恐惧93.4896.4798.9594.9595.2493.7599.0694.4992.4494.5699.3093.48
    沮丧96.9998.4799.4997.7298.0295.5999.5897.3093.2493.7799.1993.50
    惊讶97.5197.8699.6597.6895.5097.4599.0696.4696.0793.8199.2494.93
    下载: 导出CSV

    表  6  双模态已有方法与本文结果对比(%)

    数据集 文献[29]
    方法
    文献[30]
    方法
    文献[31]
    方法
    文献[32]
    方法
    文献[33]
    方法
    文献[34]
    方法
    文献[35]
    方法
    文献[36]
    方法
    文献[37]
    方法
    本文
    方法
    RAVDESS 86.0 86.7 87.5 87.89 82.99- 93.23 97.22
    RML 82.47 96.79 96.96
    eNTERFACE’05 72.27 91.62 88.11 87.2 94.78
    下载: 导出CSV
  • [1] KUMARAN U, RADHA RAMMOHAN S, NAGARAJAN S M, et al. Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN[J]. International Journal of Speech Technology, 2021, 24(2): 303–314. doi: 10.1007/s10772-020-09792-x.
    [2] 韩虎, 范雅婷, 徐学锋. 面向方面情感分析的多通道增强图卷积网络[J]. 电子与信息学报, 2024, 46(3): 1022–1032. doi: 10.11999/JEIT230353.

    HAN Hu, FAN Yating, and XU Xuefeng. Multi-channel enhanced graph convolutional network for aspect-based sentiment analysis[J]. Journal of Electronics & Information Technology, 2024, 46(3): 1022–1032. doi: 10.11999/JEIT230353.
    [3] CORNEJO J and PEDRINI H. Bimodal emotion recognition based on audio and facial parts using deep convolutional neural networks[C]. Proceedings of the 18th IEEE International Conference On Machine Learning And Applications, Boca Raton, USA, 2019: 111–117. doi: 10.1109/ICMLA.2019.00026.
    [4] O’TOOLE A J, CASTILLO C D, PARDE C J, et al. Face space representations in deep convolutional neural networks[J]. Trends in Cognitive Sciences, 2018, 22(9): 794–809. doi: 10.1016/j.tics.2018.06.006.
    [5] CHEN Qiupu and HUANG Guimin. A novel dual attention-based BLSTM with hybrid features in speech emotion recognition[J]. Engineering Applications of Artificial Intelligence, 2021, 102: 104277. doi: 10.1016/J.ENGAPPAI.2021.104277.
    [6] PAN Bei, HIROTA K, JIA Zhiyang, et al. A review of multimodal emotion recognition from datasets, preprocessing, features, and fusion methods[J]. Neurocomputing, 2023, 561: 126866. doi: 10.1016/j.neucom.2023.126866.
    [7] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. doi: 10.1109/5.726791.
    [8] HOCHREITER S and SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735–1780. doi: 10.1162/neco.1997.9.8.1735.
    [9] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6000–6010.
    [10] KIM B K, LEE H, ROH J, et al. Hierarchical committee of deep CNNs with exponentially-weighted decision fusion for static facial expression recognition[C]. Proceedings of the 2015 ACM on International Conference on Multimodal Interaction, Seattle Washington, USA, 2015: 427–434. doi: 10.1145/2818346.2830590.
    [11] TZIRAKIS P, TRIGEORGIS G, NICOLAOU M A, et al. End-to-end multimodal emotion recognition using deep neural networks[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8): 1301–1309. doi: 10.1109/JSTSP.2017.2764438.
    [12] SAHOO S and ROUTRAY A. Emotion recognition from audio-visual data using rule based decision level fusion[C]. Proceedings of 2016 IEEE Students’ Technology Symposium, Kharagpur, India, 2016: 7–12. doi: 10.1109/TechSym.2016.7872646.
    [13] WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 11534–11542. doi: 10.1109/CVPR42600.2020.01155.
    [14] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1251–1258. doi: 10.1109/CVPR.2017.195.
    [15] LIVINGSTONE S R and RUSSO F A. The Ryerson audio-visual database of emotional speech and song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English[J]. PLoS One, 2018, 13(5): e0196391. doi: 10.1371/journal.pone.0196391.
    [16] WANG Yongjin and GUAN Ling. Recognizing human emotional state from audiovisual signals[J]. IEEE Transactions on Multimedia, 2008, 10(5): 936–946. doi: 10.1109/TMM.2008.927665.
    [17] MARTIN O, KOTSIA I, MACQ B, et al. The eNTERFACE’ 05 audio-visual emotion database[C]. Proceedings of the 22nd International Conference on Data Engineering Workshops, Atlanta, USA, 2006: 8. doi: 10.1109/ICDEW.2006.145.
    [18] VIJAYAN D M, ARUN A V, GANESHNATH R, et al. Development and analysis of convolutional neural network based accurate speech emotion recognition models[C]. Proceedings of the 19th India Council International Conference, Kochi, India, 2022: 1–6. doi: 10.1109/INDICON56171.2022.10040174.
    [19] AGGARWAL A, SRIVASTAVA A, AGARWAL A, et al. Two-way feature extraction for speech emotion recognition using deep learning[J]. Sensors, 2022, 22(6): 2378. doi: 10.3390/s22062378.
    [20] ZHANG Limin, LI Yang, ZHANG Yueting, et al. A deep learning method using gender-specific features for emotion recognition[J]. Sensors, 2023, 23(3): 1355. doi: 10.3390/s23031355.
    [21] KANANI C S, GILL K S, BEHERA S, et al. Shallow over deep neural networks: A empirical analysis for human emotion classification using audio data[M]. MISRA R, KESSWANI N, RAJARAJAN M, et al. Internet of Things and Connected Technologies. Cham: Springer, 2021: 134–146. doi: 10.1007/978-3-030-76736-5_13.
    [22] FALAHZADEH M R, FARSA E Z, HARIMI A, et al. 3D convolutional neural network for speech emotion recognition with its realization on Intel CPU and NVIDIA GPU[J]. IEEE Access, 2022, 10: 112460–112471. doi: 10.1109/ACCESS.2022.3217226.
    [23] FALAHZADEH M R, FAROKHI F, HARIMI A, et al. Deep convolutional neural network and gray wolf optimization algorithm for speech emotion recognition[J]. Circuits, Systems, and Signal Processing, 2023, 42(1): 449–492. doi: 10.1007/s00034-022-02130-3.
    [24] HARÁR P, BURGET R, and DUTTA M K. Speech emotion recognition with deep learning[C]. Proceedings of the 4th International Conference on Signal Processing and Integrated Networks, Noida, India, 2017: 137–140. doi: 10.1109/SPIN.2017.8049931.
    [25] SLIMI A, HAFAR N, ZRIGUI M, et al. Multiple models fusion for multi-label classification in speech emotion recognition systems[J]. Procedia Computer Science, 2022, 207: 2875–2882. doi: 10.1016/j.procs.2022.09.345.
    [26] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90.
    [27] MA Ningning, ZHANG Xiangyu, ZHENG Haitao, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 116–131. doi: 10.1007/978-3-030-01264-9_8.
    [28] SANDLER M, HOWARD A, ZHU Menglong, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 4510–4520. doi: 10.1109/CVPR.2018.00474.
    [29] MIDDYA A I, NAG B, and ROY S. Deep learning based multimodal emotion recognition using model-level fusion of audio–visual modalities[J]. Knowledge-Based Systems, 2022, 244: 108580. doi: 10.1016/j.knosys.2022.108580.
    [30] LUNA-JIMÉNEZ C, KLEINLEIN R, GRIOL D, et al. A proposal for multimodal emotion recognition using aural transformers and action units on RAVDESS dataset[J]. Applied Sciences, 2021, 12(1): 327. doi: 10.3390/app12010327.
    [31] BOUALI Y L, AHMED O B, and MAZOUZI S. Cross-modal learning for audio-visual emotion recognition in acted speech[C]. Proceedings of the 6th International Conference on Advanced Technologies for Signal and Image Processing, Sfax, Tunisia, 2022: 1–6. doi: 10.1109/ATSIP55956.2022.9805959.
    [32] MOCANU B and TAPU R. Audio-video fusion with double attention for multimodal emotion recognition[C]. Proceedings of the 14th Image, Video, and Multidimensional Signal Processing Workshop, Nafplio, Greece, 2022: 1–5. doi: 10.1109/IVMSP54334.2022.9816349.
    [33] WOZNIAK M, SAKOWICZ M, LEDWOSINSKI K, et al. Bimodal emotion recognition based on vocal and facial features[J]. Procedia Computer Science, 2023, 225: 2556–2566. doi: 10.1016/j.procs.2023.10.247.
    [34] PAN Bei, HIROTA K, JIA Zhiyang, et al. Multimodal emotion recognition based on feature selection and extreme learning machine in video clips[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(3): 1903–1917. doi: 10.1007/s12652-021-03407-2.
    [35] TANG Guichen, XIE Yue, LI Ke, et al. Multimodal emotion recognition from facial expression and speech based on feature fusion[J]. Multimedia Tools and Applications, 2023, 82(11): 16359–16373. doi: 10.1007/s11042-022-14185-0.
    [36] CHEN Luefeng, WANG Kuanlin, LI Min, et al. K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human-robot interaction[J]. IEEE Transactions on Industrial Electronics, 2023, 70(1): 1016–1024. doi: 10.1109/TIE.2022.3150097.
    [37] CHEN Guanghui and ZENG Xiaoping. Multi-modal emotion recognition by fusing correlation features of speech-visual[J]. IEEE Signal Processing Letters, 2021, 28: 533–537. doi: 10.1109/LSP.2021.3055755.
  • 期刊类型引用(5)

    1. 刘言,刘宁波,黄勇,王中训. 利用相位特征筛选参考单元的改进CFAR方法. 烟台大学学报(自然科学与工程版). 2023(03): 371-378 . 百度学术
    2. 杜改丽,封治华. 一种改进现有机载雷达探测性能的多普勒处理新技术. 现代雷达. 2022(02): 75-83 . 百度学术
    3. 邹俊杰,程丰,万显荣. 外源雷达空时联合恒虚警检测分析与实验. 雷达科学与技术. 2022(04): 415-420+428 . 百度学术
    4. 周子铂,王彬彬,张朝伟,刘建卫,徐颖鑫,王志会. 基于迭代对消的外辐射源雷达目标检测方法. 雷达科学与技术. 2022(05): 555-564 . 百度学术
    5. 杨威,崔恒荣. 77GHz近程雷达CFAR算法研究. 通信技术. 2021(09): 2125-2131 . 百度学术

    其他类型引用(9)

  • 加载中
图(11) / 表(6)
计量
  • 文章访问数:  321
  • HTML全文浏览量:  132
  • PDF下载量:  63
  • 被引次数: 14
出版历程
  • 收稿日期:  2024-02-05
  • 修回日期:  2024-11-06
  • 网络出版日期:  2024-11-08
  • 刊出日期:  2025-12-01

目录

/

返回文章
返回