刘佳 宋泓 陈大鹏 王斌 张增伟

LIU Jia, SONG Hong, CHEN Dapeng, WANG Bin, ZHANG Zengwei. A Multimodal Sentiment Analysis Model Enhanced with Non-verbal Information and Contrastive Learning[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3372-3381. doi: 10.11999/JEIT231274
doi: 10.11999/JEIT231274 cstr: 32379.14.JEIT231274
基金项目: 国家自然科学基金(61773219, 62003169),江苏产业前瞻与关键技术重点项目(BE2020006-2),江苏省自然科学基金青年基金(BK20200823)







    陈大鹏 dpchen@nuist.edu.cn

  • 中图分类号: TN911.7; TP391

A Multimodal Sentiment Analysis Model Enhanced with Non-verbal Information and Contrastive Learning

Funds: The National Natural Science Foundation of China (61773219, 62003169), The Key R&D Program of Jiangsu Province (Industry Prospects and Key Core Technologies) (BE2020006-2), The Natural Science Foundation of Jiangsu Province (BK20200823)
  • 摘要: 因具有突出的表征和融合能力,深度学习方法近年来越来越多地被应用于多模态情感分析领域。已有的研究大多利用文字、面部表情、语音语调等多模态信息对人物的情绪进行分析,并主要使用复杂的融合方法。然而,现有模型在长时间序列中未充分考虑情感的动态变化,导致情感分析性能不佳。针对这一问题,该文提出非语言信息增强和对比学习的多模态情感分析网络模型。首先,使用长程文本信息去促使模型学习音频和视频在长时间序列中的动态变化,然后,通过门控机制消除模态间的冗余信息和语义歧义。最后,使用对比学习加强模态间的交互,提升模型的泛化性。实验结果表明,在数据集CMU-MOSI上,该模型将皮尔逊相关系数(Corr)和F1值分别提高了3.7%和2.1%;而在数据集CMU-MOSEI上,该模型将“Corr”和“F1值”分别提高了1.4%和1.1%。因此,该文提出的模型可以有效利用模态间的交互信息,并去除信息冗余。
  • 图  1  不同模态组合的情绪预测

    图  2  模型结构图

    图  3  非语言信息增强机制结构图

    图  4  MLP融合单元

    图  5  各基准模型性能比较

    图  6  各辅助模态性能可视化

    表  1  模型对比实验结果CMU-MOSI和CMU-MOSEI

    MAE Corr Acc-7 Acc-2 F1 MAE Corr Acc-7 Acc-2 F1
    TFN 0.901 0.698 34.90 80.80 80.70 0.593 0.700 50.20 82.50 82.10
    LMF 0.917 0.695 33.20 82.50 82.40 0.623 0.677 48.00 82.00 82.10
    MULT 0.918 0.680 36.47 79.30 79.34 0.580 0.703 51.80 82.50 82.30
    ICCN 0.860 0.710 39.00 83.00 83.00 0.565 0.713 51.60 84.20 84.20
    MISA 0.783 0.761 42.30 83.40 83.60 0.555 0.756 52.20 85.50 85.30
    MAG-BERT 0.713 0.789 84.30 84.30 0.539 0.753 85.23 85.08
    MGHF 0.709 0.802 45.19 85.21 85.21 0.528 0.767 53.70 85.30 84.86
    MHMF-BERT 0.701 0.787 85.30 85.30 0.519 0.761 85.60 85.60
    CENet(B) 0.698 0.806 86.74 86.66 0.515 0.816 86.24 86.16
    本文 0.633 0.843 48.10 88.73 88.80 0.482 0.830 52.80 87.30 87.30
    表  2  CMU-MOSI和CMU-MOSEI数据集上消融实验研究结果(-G代表移除了NE模块中的门控机制)

    MAE(↓) Corr(↑) F1(↑) MAE(↓) Corr(↑) F1(↑)
    Base 0.702 0.810 85.32 0.550 0.767 84.92
    Base + NE(A) 0.688 0.812 85.52 0.552 0.772 85.01
    Base + NE(V) 0.674 0.823 85.61 0.542 0.776 85.53
    Base + NE(T) 0.654 0.833 87.06 0.525 0.793 86.03
    Base + NE(T)-G 0.665 0.825 86.60 0.535 0.787 85.60
    Base + contrast 0.673 0.824 86.63 0.539 0.790 85.66
    Ours 0.633 0.843 88.88 0.482 0.830 87.30
    表  3  (A代表本文提出的模型,B代表去除非语言信息增强模块和对比学习策略的模型)

    TIt’s been a great day.2.532.522.05
    THe was the only character that slightly interesting.–0.80–0.82–0.10
    TI give Shrek Forever After directed by Mike Mitchell a grade of B minus.1.000.95–0.98
  • 收稿日期:  2023-11-17
  • 修回日期:  2024-03-24
  • 网络出版日期:  2024-04-07
