通过双信息瓶颈实现鲁棒的多模态情感分析
论文原始标题:Robust Multimodal Sentiment Analysis via Double Information Bottleneck
论文作者:Authors: Huiting Huang, Tieliang Gong, Kai He, Jialun Wu, Erik Cambria, Mengling Feng
原始摘要:Multimodal sentiment analysis has received significant attention across diverse research domains. Despite advancements in algorithm design, existing approaches suffer from two critical limitations: insufficient learning of noise-contaminated unimodal data, leading to corrupted cross-modal interactions, and inadequate fusion of multimodal representations, resulting in discarding discriminative unimodal information while retaining multimodal redundant information. To address these challenges, this paper proposes a Double Information Bottleneck (DIB) strategy to obtain a powerful, unified compact multimodal representation. Implemented within the framework of low-rank Renyi's entropy functional, DIB offers enhanced robustness against diverse noise sources and computational tractability for high-dimensional data, as compared to the conventional Shannon entropy-based methods. The DIB comprises two key modules: 1) learning a sufficient and compressed representation of individual unimodal data by maximizing the task-relevant information and discarding the superfluous information, and 2) ensuring the discriminative ability of multimodal representation through a novel attention bottleneck fusion mechanism. Consequently, DIB yields a multimodal representation that effectively filters out noisy information from unimodal data while capturing inter-modal complementarity. Extensive experiments on CMU-MOSI, CMU-MOSEI, CH-SIMS, and MVSA-Single validate the effectiveness of our method. The model achieves 47.4% accuracy under the Acc-7 metric on CMU-MOSI and 81.63% F1-score on CH-SIMS, outperforming the second-best baseline by 1.19%. Under noise, it shows only 0.36% and 0.29% performance degradation on CMU-MOSI and CMU-MOSEI respectively.
翻译标题:通过双信息瓶颈实现鲁棒的多模态情感分析
翻译摘要:多模态情感分析在多个研究领域受到了广泛关注。尽管算法设计有所进步,但现有方法存在两个关键限制:对噪声污染的单模态数据学习不足,导致跨模态交互被进一步“污染”;多模态表示融合不足,导致判别性单模态信息被丢弃,同时保留多模态冗余信息。为解决这些问题,本文提出了一种双信息瓶颈(Double Information Bottleneck, DIB)策略,以获得一个强大且统一的紧凑多模态表示。在低阶 Rényi 熵函数框架内实现,DIB 对多种噪声源表现出更强的鲁棒性,并且在高维数据上具有计算可处理性,与传统的基于 Shannon 熵的方法相比。DIB 包含两个关键模块:1)通过最大化任务相关信息并丢弃冗余信息,学习单模态数据的充分且压缩表示;2)通过新颖的注意力瓶颈融合机制,确保多模态表示的判别能力。因此,DIB 生成的多模态表示能够有效过滤单模态数据中的噪声信息,同时捕捉模态间的互补性。在 CMU-MOSI、CMU-MOSEI、CH-SIMS 和 MVSA-Single 四个数据集上的广泛实验验证了方法的有效性。模型在 CMU-MOSI 上的 Acc-7 指标达到 47.4%,在 CH-SIMS 上的 F1 得分达到 81.63%,超过了第二佳基线 1.19%。在噪声条件下,其在 CMU-MOSI 和 CMU-MOSEI 上的性能下降分别仅为 0.36% 和 0.29%。

智能问答:
Q1: 这篇论文试图解决什么问题?
该论文针对多模态情感分析(MSA)中两大核心缺陷展开研究:
单模态数据被噪声污染时,现有方法无法充分抑制冗余与干扰,导致跨模态交互被进一步“污染”;
常规融合策略在构建统一表征时,既容易丢弃具有判别力的单模态信息,又容易保留跨模态冗余,造成表征冗余且鲁棒性不足。
为此,作者提出“双信息瓶颈”(Double Information Bottleneck, DIB)框架,通过低阶 Rényi 熵函数显式压缩噪声并保留任务相关信息,同时设计注意力瓶颈融合机制,在有限容量的瓶颈嵌入中实现跨模态互补信息的精选与整合,从而获得紧凑、鲁棒且判别力强的统一多模态表征。
Q2: 有哪些相关研究?
论文在第 2 节系统回顾了两大类相关研究,并指出其与本工作的区别。可归纳为如下要点:
多模态情感分析(MSA)
早期融合策略
特征级:Graph-MFN、TFN、LMF 等
决策级:late-fusion SVM、LogReg 等
混合级:Hybrid-Fusion、MUG 等
注意力/Transformer 融合
MulT、AOBERT、HIMT、ALMT、PS-Mixer、EMT 等
现有缺陷:对噪声、冗余、缺失模态敏感;高维注意力计算易保留无关信息。
信息瓶颈(IB)在深度学习中的应用
标准 IB/VIB:Tishby et al., 2015;Alemi et al., 2016
多视图/多模态扩展
MMIM:层级最大化互信息,但未显式去噪
CMIMH:离散哈希,表达能力受限
MIB:三种 IB 融合策略,仍基于 Shannon 熵,高维估计困难
低阶 Rényi 熵:Giraldo et al., 2014;Dong et al., 2023——首次用于鲁棒信息度量,但尚未与多模态融合结合。
本工作首次将“低阶 Rényi 熵信息瓶颈”与“注意力瓶颈融合”联合引入 MSA,兼顾单模态去噪与跨模态精选,填补上述研究空白。
Q3: 论文如何解决这个问题?
论文提出 Double Information Bottleneck(DIB) 框架,从“单模态去噪”与“跨模态精选”两条路径同时压缩冗余、抑制噪声,最终输出一个紧凑而判别力强的统一表征。具体实现分为三步,对应图 3 的三个级联模块:
单模态 LRIB 编码
对每个模态 m 的预训练特征 E_m 采用变分编码器得到随机隐变量 Z_m = μ_m + σ_m ⊙ ε_m, ε_m ∼ N(0, I),并用 低阶 Rényi 熵信息瓶颈目标 min Luni-LRIB = ∑m [Iαk(EAm; ZAm) − βmI(Zm; Y)]
第一项基于低阶 Gram 矩阵谱仅保留前 k 个主特征值,实现“硬”去噪;
第二项用可微的交叉熵/MAE 下界保证情感标签信息最大化。
Attention Bottleneck 融合
将 {Zt, Za, Zv} 拼接为 U0 后,引入 轻量级瓶颈嵌入 B ∈ Rlb×d(lb ≪ lm)作为信息中转站:
先执行 U→B 注意力,把跨模态关键信号压入瓶颈;
再执行 B→Zm 注意力,将筛选后的互补信息回注各模态。
迭代 M 层后得到文本主导特征 Z = ReLU(ZtM)。该结构限制信息通量,天然抑制冗余与噪声交换。
多模态 LRIB 精炼
对融合结果再次施加低阶 Rényi 熵瓶颈 min Lmulti-LRIB = Iαk(ZA; Z~A) − βI(Z~; Y),进一步剔除残余冗余,并保留与情感最相关的紧凑表达 Z~。
最后联合优化 L_DIB = Luni-LRIB + Lmulti-LRIB,端到端训练即可在统一目标下同时完成“单模态压缩去噪”与“跨模态精选融合”,从而显著提升对噪声、缺失、错位等真实扰动的鲁棒性。
Q4: 论文做了哪些实验?
论文在 4 个公开数据集、2 类模态设置(三模态/双模态)上共执行了 7 组实验,系统验证 DIB 的准确性、鲁棒性与效率。核心结果汇总如下(不再用表格,仅用列表呈现):
主实验:与 15 个三模态、7 个双模态 SOTA 对比
CMU-MOSI:Acc-7 47.4%,F1 85.6%,MAE 0.715,均优于 MIB、PS-Mixer、ALMT 等;
CMU-MOSEI:Acc-7 53.5%,F1 86.0%,Corr 0.790,领先 MIB 1.6 个百分点 F1;
CH-SIMS:F1 81.63%,比次佳高 1.27%,且 p<0.001 显著;
MVSA-Single:Acc-2 76.05%,Weighted-F1 75.20%,刷新该集合最佳成绩。
噪声鲁棒实验
对文本随机替换/打乱 10%,对音视特征加 N(0,1) 高斯噪声;
计算 5 指标平均下降率:MOSI 仅 0.36%,MOSEI 仅 0.29%,远低于 PS-Mixer(8.27%/1.22%)与 MIB(0.91%/0.51%)。
进一步在 6%–10% 强度梯度下测试,DIB 的下降曲线始终最平缓。
缺失模态实验
训练-验证-测试同步随机 mask 10%–90% 的模态片段;
在 90% 缺失极端场景下,DIB 的 Acc-2、Acc-7、MAE 仍保持最优,曲线下降最缓慢。
效率对比
在 MOSI 上单 epoch 耗时 13.12 s,参数量 109.8 M,峰值显存 5058 MiB;
比 TMBL 训练快 27.7%,显存省 32.5%;比 EMT 快 15.3%,显存省 3.1%。
消融研究
去除 LRIB 去噪模块 → F1 下降 2.0 个百分点;
去除瓶颈融合改为简单拼接 → F1 降 4.2 个百分点,MAE 增 19%;
分别移除文本/音频/视觉 LRIB,文本侧影响最大;
将主导模态由文本换成音频或视觉,性能均明显下降。
融合策略对照
与 Concat、Add、TFN、LMF、ARGF、GraphCAGE、MSAF、MMMU-BA 等 8 种主流融合方法相比,DIB 在 MOSI/MOSEI 的 F1 分别提升 1.08%/0.77%,同时单 epoch 耗时最低(13.05 s vs 14.59–18.15 s)。
深入分析
收敛曲线:DIB 验证集 MAE 下降最快且方差最小;
混淆矩阵:三分类(正/中/负)中 DIB 对中性样本识别更均衡;
Rényi 阶 α 敏感性:α∈[1.1,2.0] 区间性能平稳,默认 1.9 最佳;
注意力可视化:瓶颈嵌入在干净与噪声条件下均能聚焦到“挑眉”“上扬语调”“关键手势”等高判别区域;
t-SNE 可视化:DIB 学习到的表征同类更紧密、异类更分离;
真实样例:在文本拼写错误、语调平淡、画面模糊等复杂场景下,DIB 正确推断情感,而 MIB 失败。
综合以上 7 组实验,论文验证了 DIB 在准确率、鲁棒性、计算效率三方面均优于现有方法。
Q5: 有什么可以进一步探索的点?
自适应单模态监督
目前用全局多模态标签指导各单模态 LRIB,可能抑制模态特异性信息。可引入伪标签生成、元学习或互蒸馏策略,为每个模态动态生成更细粒度的监督信号。
视觉-文本语义对齐与视觉 grounding
失败案例显示模型在抽象或艺术图像上过度依赖文本情感词。可引入 phrase-grounding、cross-attention map 约束或视觉-语言对比损失,将“情感关键词”显式绑定到对应视觉实体,减少语义幻觉。
低阶 Rényi 熵的在线秩选择
固定截断秩 k=10 对所有数据集与层一致,可能过保守。可探索基于 eigenvalue-gap 的 adaptive k,或把秩作为可学习参数,用网络自动调整压缩强度。
瓶颈嵌入的语义可解释性
当前 bottleneck token 是随机初始化并端到端学习,缺乏人类可读语义。可尝试离散化瓶颈(VQ-VAE、codebook)或引入语义正则,令每个 bottleneck slot 对应“情感因子”(valence, arousal, sarcasm 等),提升可解释与可控性。
跨任务迁移与统一框架
DIB 的模块化设计(单模态 LRIB + 瓶颈融合 + 多模态 LRIB)与情感标签解耦,可迁移到视觉问答、视频-文本检索等多模态任务。需重新设计下游解码器并调整 β, k, α 等超参,验证其通用表征能力。
更真实的噪声与对抗攻击
目前实验采用随机高斯噪声和 token 扰动。可引入真实环境录音混响、压缩失真、对抗扰动或跨模态错位(audio-video 延迟),并采用对抗训练或鲁棒蒸馏进一步提升模型安全边际。
计算效率再优化
低阶 Rényi 熵需每轮计算核矩阵并做 Lanczos 近似,仍占训练时间大头。可探索随机傅里叶特征、Nyström 近似或 mini-batch 核估计,降低 O(n²) 内存与 O(n²s) 时间开销,实现大 batch / 长序列训练。
缺失模态下的自适应推理
目前缺失实验仅在训练阶段随机 mask。可引入模态置信度估计器,在推理时动态决定是否调用缺失模态的补全网络或调整融合权重,实现真正“即插即用”的鲁棒推理。
Q6: 总结一下论文的主要内容
问题
现有多模态情感分析两大痛点:
单模态数据含冗余、背景噪声、缺失或错位,导致跨模态交互被“污染”;
融合阶段易丢弃判别性单模态信息,却保留跨模态冗余,降低鲁棒性。
方法
提出 Double Information Bottleneck(DIB) 框架,核心思想是“两次压缩、一次精选”:
单模态 LRIB:用低阶 Rényi 熵仅保留核矩阵前 k 大特征值,显式过滤噪声,同步最大化与标签的互信息,输出紧凑隐变量 Z_m;
Attention Bottleneck 融合:引入轻量级瓶颈嵌入 B 作为信息中转,限制信息通量,先聚合再分发,抑制冗余交换;
多模态 LRIB:对融合结果再次施加低阶 Rényi 熵瓶颈,进一步剔除残余噪声,得到统一表征 Z̃ 用于情感预测。
整个流程端到端优化 L_DIB = L_uni-LRIB + L_multi-LRIB。
实验
在 CMU-MOSI、MOSEI、CH-SIMS、MVSA-Single 四个数据集上与 22 条 SOTA 对比,DIB 取得最高或次最高准确率;在 10% 随机噪声、90% 模态缺失场景下性能下降最小(MOSI 仅 0.36%);参数量与训练耗时与主流方法相当或更低。消融、可视化、混淆矩阵、收敛曲线等分析一致验证其去噪与精选能力。
结论
DIB 通过低阶 Rényi 熵与注意力瓶颈的“双瓶颈”设计,同时实现单模态去噪和跨模态精选,在准确率、鲁棒性、效率三方面均优于现有方法,为真实场景下的鲁棒多模态情感分析提供了新基准。
阅读全文 →
来源:Arxiv2025-11-03 10:52:45 UTC