🔥🔥🔥🔥🔥多模态学习

通过双信息瓶颈实现鲁棒的多模态情感分析

#多模态情感分析#信息瓶颈#鲁棒性#低阶 Rényi 熵#注意力融合

论文原始标题：Robust Multimodal Sentiment Analysis via Double Information Bottleneck

论文作者：Authors: Huiting Huang, Tieliang Gong, Kai He, Jialun Wu, Erik Cambria, Mengling Feng

原始摘要：Multimodal sentiment analysis has received significant attention across diverse research domains. Despite advancements in algorithm design, existing approaches suffer from two critical limitations: insufficient learning of noise-contaminated unimodal data, leading to corrupted cross-modal interactions, and inadequate fusion of multimodal representations, resulting in discarding discriminative unimodal information while retaining multimodal redundant information. To address these challenges, this paper proposes a Double Information Bottleneck (DIB) strategy to obtain a powerful, unified compact multimodal representation. Implemented within the framework of low-rank Renyi's entropy functional, DIB offers enhanced robustness against diverse noise sources and computational tractability for high-dimensional data, as compared to the conventional Shannon entropy-based methods. The DIB comprises two key modules: 1) learning a sufficient and compressed representation of individual unimodal data by maximizing the task-relevant information and discarding the superfluous information, and 2) ensuring the discriminative ability of multimodal representation through a novel attention bottleneck fusion mechanism. Consequently, DIB yields a multimodal representation that effectively filters out noisy information from unimodal data while capturing inter-modal complementarity. Extensive experiments on CMU-MOSI, CMU-MOSEI, CH-SIMS, and MVSA-Single validate the effectiveness of our method. The model achieves 47.4% accuracy under the Acc-7 metric on CMU-MOSI and 81.63% F1-score on CH-SIMS, outperforming the second-best baseline by 1.19%. Under noise, it shows only 0.36% and 0.29% performance degradation on CMU-MOSI and CMU-MOSEI respectively.

翻译标题：通过双信息瓶颈实现鲁棒的多模态情感分析

翻译摘要：多模态情感分析在多个研究领域受到了广泛关注。尽管算法设计有所进步，但现有方法存在两个关键限制：对噪声污染的单模态数据学习不足，导致跨模态交互被进一步“污染”；多模态表示融合不足，导致判别性单模态信息被丢弃，同时保留多模态冗余信息。为解决这些问题，本文提出了一种双信息瓶颈（Double Information Bottleneck, DIB）策略，以获得一个强大且统一的紧凑多模态表示。在低阶 Rényi 熵函数框架内实现，DIB 对多种噪声源表现出更强的鲁棒性，并且在高维数据上具有计算可处理性，与传统的基于 Shannon 熵的方法相比。DIB 包含两个关键模块：1）通过最大化任务相关信息并丢弃冗余信息，学习单模态数据的充分且压缩表示；2）通过新颖的注意力瓶颈融合机制，确保多模态表示的判别能力。因此，DIB 生成的多模态表示能够有效过滤单模态数据中的噪声信息，同时捕捉模态间的互补性。在 CMU-MOSI、CMU-MOSEI、CH-SIMS 和 MVSA-Single 四个数据集上的广泛实验验证了方法的有效性。模型在 CMU-MOSI 上的 Acc-7 指标达到 47.4%，在 CH-SIMS 上的 F1 得分达到 81.63%，超过了第二佳基线 1.19%。在噪声条件下，其在 CMU-MOSI 和 CMU-MOSEI 上的性能下降分别仅为 0.36% 和 0.29%。

智能问答：

Q1: 这篇论文试图解决什么问题？

该论文针对多模态情感分析（MSA）中两大核心缺陷展开研究：

单模态数据被噪声污染时，现有方法无法充分抑制冗余与干扰，导致跨模态交互被进一步“污染”；

常规融合策略在构建统一表征时，既容易丢弃具有判别力的单模态信息，又容易保留跨模态冗余，造成表征冗余且鲁棒性不足。

为此，作者提出“双信息瓶颈”（Double Information Bottleneck, DIB）框架，通过低阶 Rényi 熵函数显式压缩噪声并保留任务相关信息，同时设计注意力瓶颈融合机制，在有限容量的瓶颈嵌入中实现跨模态互补信息的精选与整合，从而获得紧凑、鲁棒且判别力强的统一多模态表征。

Q2: 有哪些相关研究？

论文在第 2 节系统回顾了两大类相关研究，并指出其与本工作的区别。可归纳为如下要点：

多模态情感分析（MSA）

早期融合策略

特征级：Graph-MFN、TFN、LMF 等

决策级：late-fusion SVM、LogReg 等

混合级：Hybrid-Fusion、MUG 等

注意力/Transformer 融合

MulT、AOBERT、HIMT、ALMT、PS-Mixer、EMT 等

现有缺陷：对噪声、冗余、缺失模态敏感；高维注意力计算易保留无关信息。

信息瓶颈（IB）在深度学习中的应用

标准 IB/VIB：Tishby et al., 2015；Alemi et al., 2016

多视图/多模态扩展

MMIM：层级最大化互信息，但未显式去噪

CMIMH：离散哈希，表达能力受限

MIB：三种 IB 融合策略，仍基于 Shannon 熵，高维估计困难

低阶 Rényi 熵：Giraldo et al., 2014；Dong et al., 2023——首次用于鲁棒信息度量，但尚未与多模态融合结合。

本工作首次将“低阶 Rényi 熵信息瓶颈”与“注意力瓶颈融合”联合引入 MSA，兼顾单模态去噪与跨模态精选，填补上述研究空白。

Q3: 论文如何解决这个问题？

论文提出 Double Information Bottleneck（DIB）框架，从“单模态去噪”与“跨模态精选”两条路径同时压缩冗余、抑制噪声，最终输出一个紧凑而判别力强的统一表征。具体实现分为三步，对应图 3 的三个级联模块：

单模态 LRIB 编码

对每个模态 m 的预训练特征 E_m 采用变分编码器得到随机隐变量 Z_m = μ_m + σ_m ⊙ ε_m, ε_m ∼ N(0, I)，并用低阶 Rényi 熵信息瓶颈目标 min Luni-LRIB = ∑m [Iαk(EAm; ZAm) − βmI(Zm; Y)]

第一项基于低阶 Gram 矩阵谱仅保留前 k 个主特征值，实现“硬”去噪；

第二项用可微的交叉熵/MAE 下界保证情感标签信息最大化。

Attention Bottleneck 融合

将 {Zt, Za, Zv} 拼接为 U0 后，引入轻量级瓶颈嵌入 B ∈ Rlb×d（lb ≪ lm）作为信息中转站：

先执行 U→B 注意力，把跨模态关键信号压入瓶颈；

再执行 B→Zm 注意力，将筛选后的互补信息回注各模态。

迭代 M 层后得到文本主导特征 Z = ReLU(ZtM)。该结构限制信息通量，天然抑制冗余与噪声交换。

多模态 LRIB 精炼

对融合结果再次施加低阶 Rényi 熵瓶颈 min Lmulti-LRIB = Iαk(ZA; Z~A) − βI(Z~; Y)，进一步剔除残余冗余，并保留与情感最相关的紧凑表达 Z~。

最后联合优化 L_DIB = Luni-LRIB + Lmulti-LRIB，端到端训练即可在统一目标下同时完成“单模态压缩去噪”与“跨模态精选融合”，从而显著提升对噪声、缺失、错位等真实扰动的鲁棒性。

Q4: 论文做了哪些实验？

论文在 4 个公开数据集、2 类模态设置（三模态/双模态）上共执行了 7 组实验，系统验证 DIB 的准确性、鲁棒性与效率。核心结果汇总如下（不再用表格，仅用列表呈现）：

主实验：与 15 个三模态、7 个双模态 SOTA 对比

CMU-MOSI：Acc-7 47.4%，F1 85.6%，MAE 0.715，均优于 MIB、PS-Mixer、ALMT 等；

CMU-MOSEI：Acc-7 53.5%，F1 86.0%，Corr 0.790，领先 MIB 1.6 个百分点 F1；

CH-SIMS：F1 81.63%，比次佳高 1.27%，且 p<0.001 显著；

MVSA-Single：Acc-2 76.05%，Weighted-F1 75.20%，刷新该集合最佳成绩。

噪声鲁棒实验

对文本随机替换/打乱 10%，对音视特征加 N(0,1) 高斯噪声；

计算 5 指标平均下降率：MOSI 仅 0.36%，MOSEI 仅 0.29%，远低于 PS-Mixer（8.27%/1.22%）与 MIB（0.91%/0.51%）。

进一步在 6%–10% 强度梯度下测试，DIB 的下降曲线始终最平缓。

缺失模态实验

训练-验证-测试同步随机 mask 10%–90% 的模态片段；

在 90% 缺失极端场景下，DIB 的 Acc-2、Acc-7、MAE 仍保持最优，曲线下降最缓慢。

效率对比

在 MOSI 上单 epoch 耗时 13.12 s，参数量 109.8 M，峰值显存 5058 MiB；

比 TMBL 训练快 27.7%，显存省 32.5%；比 EMT 快 15.3%，显存省 3.1%。

消融研究

去除 LRIB 去噪模块 → F1 下降 2.0 个百分点；

去除瓶颈融合改为简单拼接 → F1 降 4.2 个百分点，MAE 增 19%；

分别移除文本/音频/视觉 LRIB，文本侧影响最大；

将主导模态由文本换成音频或视觉，性能均明显下降。

融合策略对照

与 Concat、Add、TFN、LMF、ARGF、GraphCAGE、MSAF、MMMU-BA 等 8 种主流融合方法相比，DIB 在 MOSI/MOSEI 的 F1 分别提升 1.08%/0.77%，同时单 epoch 耗时最低（13.05 s vs 14.59–18.15 s）。

深入分析

收敛曲线：DIB 验证集 MAE 下降最快且方差最小；

混淆矩阵：三分类（正/中/负）中 DIB 对中性样本识别更均衡；

Rényi 阶 α 敏感性：α∈[1.1,2.0] 区间性能平稳，默认 1.9 最佳；

注意力可视化：瓶颈嵌入在干净与噪声条件下均能聚焦到“挑眉”“上扬语调”“关键手势”等高判别区域；

t-SNE 可视化：DIB 学习到的表征同类更紧密、异类更分离；

真实样例：在文本拼写错误、语调平淡、画面模糊等复杂场景下，DIB 正确推断情感，而 MIB 失败。

综合以上 7 组实验，论文验证了 DIB 在准确率、鲁棒性、计算效率三方面均优于现有方法。

Q5: 有什么可以进一步探索的点？

自适应单模态监督

目前用全局多模态标签指导各单模态 LRIB，可能抑制模态特异性信息。可引入伪标签生成、元学习或互蒸馏策略，为每个模态动态生成更细粒度的监督信号。

视觉-文本语义对齐与视觉 grounding

失败案例显示模型在抽象或艺术图像上过度依赖文本情感词。可引入 phrase-grounding、cross-attention map 约束或视觉-语言对比损失，将“情感关键词”显式绑定到对应视觉实体，减少语义幻觉。

低阶 Rényi 熵的在线秩选择

固定截断秩 k=10 对所有数据集与层一致，可能过保守。可探索基于 eigenvalue-gap 的 adaptive k，或把秩作为可学习参数，用网络自动调整压缩强度。

瓶颈嵌入的语义可解释性

当前 bottleneck token 是随机初始化并端到端学习，缺乏人类可读语义。可尝试离散化瓶颈（VQ-VAE、codebook）或引入语义正则，令每个 bottleneck slot 对应“情感因子”（valence, arousal, sarcasm 等），提升可解释与可控性。

跨任务迁移与统一框架

DIB 的模块化设计（单模态 LRIB + 瓶颈融合 + 多模态 LRIB）与情感标签解耦，可迁移到视觉问答、视频-文本检索等多模态任务。需重新设计下游解码器并调整 β, k, α 等超参，验证其通用表征能力。

更真实的噪声与对抗攻击

目前实验采用随机高斯噪声和 token 扰动。可引入真实环境录音混响、压缩失真、对抗扰动或跨模态错位（audio-video 延迟），并采用对抗训练或鲁棒蒸馏进一步提升模型安全边际。

计算效率再优化

低阶 Rényi 熵需每轮计算核矩阵并做 Lanczos 近似，仍占训练时间大头。可探索随机傅里叶特征、Nyström 近似或 mini-batch 核估计，降低 O(n²) 内存与 O(n²s) 时间开销，实现大 batch / 长序列训练。

缺失模态下的自适应推理

目前缺失实验仅在训练阶段随机 mask。可引入模态置信度估计器，在推理时动态决定是否调用缺失模态的补全网络或调整融合权重，实现真正“即插即用”的鲁棒推理。

Q6: 总结一下论文的主要内容

问题

现有多模态情感分析两大痛点：

单模态数据含冗余、背景噪声、缺失或错位，导致跨模态交互被“污染”；

融合阶段易丢弃判别性单模态信息，却保留跨模态冗余，降低鲁棒性。

方法

提出 Double Information Bottleneck（DIB）框架，核心思想是“两次压缩、一次精选”：

单模态 LRIB：用低阶 Rényi 熵仅保留核矩阵前 k 大特征值，显式过滤噪声，同步最大化与标签的互信息，输出紧凑隐变量 Z_m；

Attention Bottleneck 融合：引入轻量级瓶颈嵌入 B 作为信息中转，限制信息通量，先聚合再分发，抑制冗余交换；

多模态 LRIB：对融合结果再次施加低阶 Rényi 熵瓶颈，进一步剔除残余噪声，得到统一表征 Z̃ 用于情感预测。

整个流程端到端优化 L_DIB = L_uni-LRIB + L_multi-LRIB。

实验

在 CMU-MOSI、MOSEI、CH-SIMS、MVSA-Single 四个数据集上与 22 条 SOTA 对比，DIB 取得最高或次最高准确率；在 10% 随机噪声、90% 模态缺失场景下性能下降最小（MOSI 仅 0.36%）；参数量与训练耗时与主流方法相当或更低。消融、可视化、混淆矩阵、收敛曲线等分析一致验证其去噪与精选能力。

结论

DIB 通过低阶 Rényi 熵与注意力瓶颈的“双瓶颈”设计，同时实现单模态去噪和跨模态精选，在准确率、鲁棒性、效率三方面均优于现有方法，为真实场景下的鲁棒多模态情感分析提供了新基准。

阅读全文 →

来源：Arxiv2025-11-03 10:52:45 UTC

🌟 今日前沿论文 · 2025年11月3日

通过双信息瓶颈实现鲁棒的多模态情感分析