SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

📄 arXiv: 2603.05275v1 📥 PDF

作者: Zhu Li, Yongjian Chen, Huiyuan Lai, Xiyuan Gao, Shekhar Nayak, Matt Coler

分类: cs.MM, cs.CL, cs.SD

发布日期: 2026-03-05


💡 一句话要点

SarcasmMiner:提出双轨后训练框架,增强音视频反讽推理的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 反讽检测 多模态学习 强化学习 后训练 奖励模型 跨模态推理 MUStARD++

📋 核心要点

  1. 现有方法在多模态反讽检测中,难以有效解决文本、声音和视觉线索之间的语用不协调问题,容易产生幻觉。
  2. SarcasmMiner通过强化学习和双轨蒸馏策略,将反讽检测重新定义为结构化推理,提升模型的多模态推理能力。
  3. 实验表明,SarcasmMiner在MUStARD++数据集上显著提升了反讽检测的F1值,验证了推理感知奖励建模的有效性。

📝 摘要(中文)

多模态反讽检测需要通过跨模态推理来解决文本、声音和视觉线索之间的语用不协调问题。为了使基础模型能够进行鲁棒的反讽推理,我们提出了SarcasmMiner,这是一个基于强化学习的后训练框架,可以抵抗多模态推理中的幻觉。我们将反讽检测重新定义为结构化推理,并采用双轨蒸馏策略:高质量的教师轨迹初始化学生模型,而完整的轨迹集训练生成式奖励模型(GenRM)来评估推理质量。学生模型使用组相对策略优化(GRPO)进行优化,并使用解耦的奖励来衡量准确性和推理质量。在MUStARD++数据集上,SarcasmMiner将F1值从59.83%(零样本)、68.23%(监督微调)提高到70.22%。这些发现表明,推理感知的奖励建模可以提高性能和多模态基础。

🔬 方法详解

问题定义:论文旨在解决多模态反讽检测中,现有方法难以有效融合文本、声音和视觉信息,进行准确推理的问题。现有方法容易受到模态信息噪声的干扰,产生幻觉,导致反讽检测性能下降。

核心思路:论文的核心思路是将反讽检测问题转化为一个结构化推理问题,并利用强化学习来训练模型进行有效的跨模态推理。通过奖励模型来引导模型学习高质量的推理过程,从而提高反讽检测的准确性和鲁棒性。

技术框架:SarcasmMiner采用双轨后训练框架,包含以下主要模块:1) 教师模型:提供高质量的推理轨迹;2) 学生模型:通过模仿教师模型和强化学习进行优化;3) 生成式奖励模型(GenRM):评估推理轨迹的质量,并为学生模型提供奖励信号。整个框架通过双轨蒸馏策略,利用教师轨迹初始化学生模型,并使用完整的轨迹集训练GenRM。

关键创新:论文的关键创新在于提出了基于强化学习的后训练框架SarcasmMiner,以及双轨蒸馏策略和生成式奖励模型(GenRM)。GenRM能够评估推理质量,并为学生模型提供更有效的奖励信号,从而提高模型的推理能力和鲁棒性。

关键设计:论文采用组相对策略优化(GRPO)来优化学生模型,并使用解耦的奖励来衡量准确性和推理质量。GenRM的具体实现细节未知,但其目标是学习一个能够准确评估推理轨迹质量的函数。具体的参数设置和网络结构等细节可能在补充材料中。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SarcasmMiner在MUStARD++数据集上取得了显著的性能提升。相较于零样本学习,F1值提高了10.39%;相较于监督微调,F1值提高了1.99%,达到了70.22%。实验结果表明,推理感知的奖励建模能够有效提高反讽检测的性能和多模态基础。

🎯 应用场景

该研究成果可应用于情感分析、人机交互、舆情监控等领域。通过提高机器对反讽等复杂语言现象的理解能力,可以提升用户体验,并为决策提供更准确的信息支持。未来,该技术有望应用于更广泛的自然语言处理任务中。

📄 摘要(原文)

Multimodal sarcasm detection requires resolving pragmatic incongruity across textual, acoustic, and visual cues through cross-modal reasoning. To enable robust sarcasm reasoning with foundation models, we propose SarcasmMiner, a reinforcement learning based post-training framework that resists hallucination in multimodal reasoning. We reformulate sarcasm detection as structured reasoning and adopt a dual-track distillation strategy: high-quality teacher trajectories initialize the student model, while the full set of trajectories trains a generative reward model (GenRM) to evaluate reasoning quality. The student is optimized with group relative policy optimization (GRPO) using decoupled rewards for accuracy and reasoning quality. On MUStARD++, SarcasmMiner increases F1 from 59.83% (zero-shot), 68.23% (supervised finetuning) to 70.22%. These findings suggest that reasoning-aware reward modeling enhances both performance and multimodal grounding.